我们如何构建多智能体研究系统「Rosetta-Anthropic」

15 Jun, 2025

我们如何构建多智能体研究系统

发布于 2025 年 6 月 13 日

我们的研究功能利用多个 Claude 智能体来更有效地探索复杂主题。我们在此分享构建该系统过程中遇到的工程挑战和汲取的经验教训。

Claude 现在具备了研究能力，使其能够搜索网络、Google Workspace 以及任何集成应用，以完成复杂任务。

这个多智能体系统从原型到产品的整个过程，让我们在系统架构、工具设计和提示工程方面学到了关键的经验。一个多智能体系统由多个智能体（自主循环使用工具的 LLM）协同工作。我们的研究功能包含一个智能体，它根据用户查询规划研究过程，然后使用工具创建并行智能体，同时搜索信息。多智能体系统在智能体协调、评估和可靠性方面引入了新的挑战。

本文将详细解析对我们行之有效的原则——我们希望您在构建自己的多智能体系统时会发现它们有所裨益。

多智能体系统的优势

研究工作涉及开放式问题，很难预先预测所需的步骤。探索复杂主题无法硬编码固定路径，因为这个过程本质上是动态且路径依赖的。人们在进行研究时，往往会根据发现不断更新方法，追踪调查过程中出现的线索。

这种不可预测性使得 AI 智能体特别适合研究任务。研究要求在调查展开时能够灵活调整方向或探索相关的分支。模型必须自主运行多个回合，根据中间结果决定追求哪个方向。线性的、一次性处理的流程无法处理这些任务。

搜索的本质是压缩：从庞大的语料库中提炼洞见。子智能体通过在各自的上下文窗口中并行操作，同时探索问题的不同方面，然后将最重要的令牌（tokens）浓缩给主研究智能体，从而促进压缩。每个子智能体还实现了关注点分离——拥有独特的工具、提示和探索轨迹——这减少了路径依赖性，并实现了彻底、独立的调查。

一旦智能达到某个阈值，多智能体系统就成为扩展性能的重要途径。例如，尽管个体人类在过去 10 万年中变得更加智能，但由于我们的集体智能和协调能力，人类社会在信息时代的能力却实现了指数级增长。即使是通用智能体，在作为个体运作时也会面临限制；智能体群体可以完成更多的工作。

我们的内部评估表明，多智能体研究系统在涉及同时进行多个独立方向探索的广度优先查询方面表现尤为出色。我们发现，在我们的内部研究评估中，以 Claude Opus 4 为主智能体、Claude Sonnet 4 为子智能体的多智能体系统，其性能比单智能体的 Claude Opus 4 高出 90.2%。例如，当被要求识别信息技术标准普尔 500 指数中所有公司的董事会成员时，多智能体系统通过将任务分解给子智能体找到了正确答案，而单智能体系统则因缓慢的顺序搜索未能找到答案。

多智能体系统之所以有效，主要是因为它们有助于消耗足够的令牌来解决问题。在我们的分析中，三个因素解释了 BrowseComp 评估（测试浏览智能体定位难以找到信息的能力）中 95% 的性能差异。我们发现，仅令牌使用量本身就解释了 80% 的差异，工具调用次数和模型选择是另外两个解释因素。这一发现验证了我们的架构，该架构将工作分配给具有独立上下文窗口的智能体，以增加并行推理的能力。最新的 Claude 模型充当了令牌使用效率的大幅倍增器，因为升级到 Claude Sonnet 4 比在 Claude Sonnet 3.7 上将令牌预算翻倍带来的性能提升更大。多智能体架构有效地扩展了令牌使用量，以应对超出单个智能体限制的任务。

但也有一个缺点：在实践中，这些架构消耗令牌的速度很快。我们的数据显示，智能体通常比聊天交互多使用约 4 倍的令牌，而多智能体系统比聊天多使用约 15 倍的令牌。为了实现经济可行性，多智能体系统需要任务的价值足够高，以支付其性能提升带来的成本。此外，一些需要所有智能体共享相同上下文或智能体之间存在许多依赖关系的领域，目前并不适合多智能体系统。例如，大多数编码任务涉及的可真正并行化的任务比研究要少，而且 LLM 智能体在实时协调和委派给其他智能体方面尚不擅长。我们发现，多智能体系统在涉及大量并行化、信息量超出单个上下文窗口以及与众多复杂工具交互的有价值任务中表现出色。

研究功能的架构概述

我们的研究系统采用多智能体架构，具有编排者-工作者模式（orchestrator-worker pattern），其中一个主智能体协调整个过程，同时将任务委派给并行操作的专用子智能体。

多智能体架构的运作方式：用户查询流经主智能体，主智能体创建专门的子智能体以并行搜索不同方面的信息。

当用户提交查询时，主智能体对其进行分析，制定策略，并生成子智能体以同时探索不同方面。如上图所示，子智能体充当智能过滤器，通过迭代使用搜索工具收集信息（在此案例中是关于 2025 年的 AI 智能体公司），然后将公司列表返回给主智能体，以便其汇编最终答案。

使用检索增强生成（RAG）的传统方法采用静态检索。也就是说，它们获取一组与输入查询最相似的文本块，并使用这些文本块生成响应。相比之下，我们的架构使用多步骤搜索，动态查找相关信息，适应新的发现，并分析结果以形成高质量的答案。

流程图显示了我们多智能体研究系统的完整工作流程。当用户提交查询时，系统会创建一个 LeadResearcher（首席研究员）智能体，进入迭代研究过程。LeadResearcher 首先思考方法并将计划保存到 Memory（内存）中以持久化上下文，因为如果上下文窗口超过 200,000 个令牌，它将被截断，保留计划非常重要。然后，它会创建具有特定研究任务的专门 Subagents（子智能体）（此处显示两个，但可以是任意数量）。每个 Subagent 独立执行网络搜索，使用交叉思考评估工具结果，并将发现返回给 LeadResearcher。LeadResearcher 综合这些结果并决定是否需要更多研究——如果需要，它可以创建额外的子智能体或完善其策略。一旦收集到足够的信息，系统将退出研究循环并将所有发现传递给 CitationAgent（引文智能体），该智能体处理文档和研究报告以识别引文的具体位置。这确保所有声明都正确归属于其来源。最终的研究结果，连同引文，然后返回给用户。

研究智能体的提示工程和评估

多智能体系统与单智能体系统有关键区别，包括协调复杂性的迅速增长。早期的智能体曾犯过诸如为简单查询生成 50 个子智能体、无休止地在网络上搜索不存在的来源，以及因过多更新而相互干扰等错误。由于每个智能体都由提示引导，提示工程是我们改进这些行为的主要手段。以下是我们学到的一些提示智能体的原则：

像你的智能体一样思考。 要迭代提示，你必须理解它们的效果。为了帮助我们做到这一点，我们使用我们的 Console 和系统中的确切提示和工具构建了模拟，然后逐步观察智能体的工作。这立即揭示了失败模式：智能体在已经有足够结果时继续工作，使用过于冗长的搜索查询，或选择不正确的工具。有效的提示依赖于对智能体建立准确的心智模型，这可以使最有影响力的更改变得显而易见。
教会编排者如何委派任务。 在我们的系统中，主智能体将查询分解为子任务，并向子智能体描述它们。每个子智能体都需要一个目标、一个输出格式、关于要使用的工具和来源的指导，以及明确的任务边界。没有详细的任务描述，智能体会重复工作、留下空白或未能找到必要的信息。我们开始时允许主智能体给出简单、简短的指令，如“研究半导体短缺”，但发现这些指令往往含糊不清，导致子智能体误解任务或执行与其他智能体完全相同的搜索。例如，一个子智能体探索了 2021 年的汽车芯片危机，而另外两个子智能体则重复调查了当前 2025 年的供应链，没有进行有效的劳动分工。
根据查询复杂度调整投入。 智能体难以判断不同任务的适当投入，因此我们在提示中嵌入了扩展规则。简单的事实查找只需要 1 个智能体进行 3-10 次工具调用，直接比较可能需要 2-4 个子智能体，每个子智能体进行 10-15 次调用，而复杂的研究可能使用超过 10 个子智能体，并明确划分职责。这些明确的指导方针帮助主智能体有效地分配资源，并防止在简单查询上过度投入，这是我们早期版本中常见的失败模式。
工具设计和选择至关重要。 智能体-工具接口与人机接口一样关键。使用正确的工具是高效的——通常，这是绝对必要的。例如，一个在网络上搜索仅存在于 Slack 中的上下文的智能体从一开始就注定失败。通过允许模型访问外部工具的 MCP 服务器，这个问题会更加复杂，因为智能体会遇到具有质量参差不齐描述的未知工具。我们为智能体提供了明确的启发式方法：例如，首先检查所有可用工具，将工具使用与用户意图相匹配，为广泛的外部探索搜索网络，或优先选择专用工具而非通用工具。糟糕的工具描述可能会使智能体走上完全错误的道路，因此每个工具都需要一个明确的目的和清晰的描述。
让智能体自我改进。我们发现 Claude 4 模型可以成为优秀的提示工程师。当给定一个提示和一个失败模式时，它们能够诊断智能体失败的原因并提出改进建议。我们甚至创建了一个工具测试智能体——当给定一个有缺陷的 MCP 工具时，它会尝试使用该工具，然后重写工具描述以避免失败。通过数十次测试该工具，该智能体发现了关键的细微差别和错误。这种改进工具人体工程学的过程，使得未来使用新描述的智能体任务完成时间减少了 40%，因为它们能够避免大多数错误。
先广后窄。 搜索策略应模仿专家的人类研究：在深入研究具体细节之前先探索整体情况。智能体通常默认使用过长、过于具体的查询，结果返回很少。我们通过提示智能体从简短、宽泛的查询开始，评估可用内容，然后逐步缩小焦点来纠正这种倾向。
引导思考过程。 扩展思考模式引导 Claude 在可见的思考过程中输出额外的令牌，可以作为可控的草稿纸。主智能体使用思考来规划其方法，评估哪些工具适合任务，确定查询复杂度和子智能体数量，并定义每个子智能体的角色。我们的测试表明，扩展思考提高了指令遵循能力、推理能力和效率。子智能体也会进行规划，然后在工具结果出来后使用交叉思考来评估质量、识别差距并优化其下一个查询。这使得子智能体在适应任何任务时都更加有效。
并行工具调用彻底改变速度和性能。 复杂的研究任务自然涉及探索许多来源。我们早期的智能体执行顺序搜索，速度慢得令人痛苦。为了提高速度，我们引入了两种并行化：（1）主智能体并行启动 3-5 个子智能体，而不是串行启动；（2）子智能体并行使用 3 个以上的工具。这些更改使复杂查询的研究时间减少了高达 90%，使得研究功能能够在几分钟内完成更多工作，而不是几小时，同时覆盖的信息比其他系统更多。

我们的提示策略侧重于灌输良好的启发式方法，而非僵化的规则。我们研究了熟练的人类如何处理研究任务，并将这些策略编码到我们的提示中——例如将难题分解为更小的任务、仔细评估来源质量、根据新信息调整搜索方法，以及识别何时应侧重于深度（详细调查一个主题）与广度（并行探索多个主题）。我们还通过设置明确的防护栏来主动减轻意外的副作用，以防止智能体失控。最后，我们专注于具有可观测性和测试用例的快速迭代循环。

有效评估智能体

良好的评估对于构建可靠的 AI 应用至关重要，智能体也不例外。然而，评估多智能体系统带来了独特的挑战。传统评估通常假设 AI 每次都遵循相同的步骤：给定输入 X，系统应遵循路径 Y 以产生输出 Z。但多智能体系统并非如此运作。即使起点相同，智能体也可能采取完全不同的有效路径来达到目标。一个智能体可能搜索三个来源，而另一个搜索十个，或者它们可能使用不同的工具找到相同的答案。因为我们并不总是知道正确的步骤是什么，所以我们通常不能仅仅检查智能体是否遵循了我们预先规定的“正确”步骤。相反，我们需要灵活的评估方法，既能判断智能体是否达到了正确的结果，又能判断其是否遵循了合理的过程。

立即从小样本开始评估。在早期智能体开发中，更改往往会产生巨大影响，因为有大量容易实现的目标。一个提示调整可能会将成功率从 30% 提高到 80%。当影响如此之大时，只需几个测试用例即可发现变化。我们从大约 20 个代表真实使用模式的查询集开始。测试这些查询通常使我们能够清楚地看到更改的影响。我们经常听说 AI 开发团队推迟创建评估，因为他们认为只有包含数百个测试用例的大型评估才有用。然而，最好立即从少量示例开始进行小规模测试，而不是等到能够构建更全面的评估时再进行。

“LLM 即评委”评估方法在运用得当时可扩展性强。 研究输出很难通过编程方式评估，因为它们是自由格式的文本，并且很少有单一的正确答案。LLM 非常适合对输出进行评分。我们使用了一个 LLM 评委，它根据一个评分标准中的各项标准评估每个输出：事实准确性（声明是否与来源匹配？）、引文准确性（引用的来源是否与声明匹配？）、完整性（是否涵盖了所有请求的方面？）、来源质量（是否使用了主要来源而非质量较低的次要来源？），以及工具效率（是否以合理的次数使用了正确的工具？）。我们尝试了多个评委来评估每个组成部分，但发现使用单个 LLM 调用、单个提示输出 0.0-1.0 的分数和一个通过/失败的等级，这种方式最一致且与人类判断最吻合。当评估测试用例确实有明确答案时，这种方法尤其有效，我们可以使用 LLM 评委简单地检查答案是否正确（例如，它是否准确列出了研发预算排名前三的制药公司？）。使用 LLM 作为评委使我们能够可扩展地评估数百个输出。

人工评估捕捉自动化遗漏之处。 人工测试智能体能发现评估遗漏的边缘情况。这些包括对异常查询的幻觉答案、系统故障或微妙的来源选择偏差。在我们的案例中，人工测试人员注意到，我们早期的智能体一致选择经过 SEO 优化的内容农场，而不是像学术 PDF 或个人博客这样权威但排名较低的来源。在我们的提示中添加来源质量的启发式方法帮助解决了这个问题。即使在自动化评估的世界里，手动测试仍然至关重要。

多智能体系统具有涌现行为，这些行为是在没有特定编程的情况下产生的。例如，对主智能体的小改动可能会不可预测地改变子智能体的行为。成功需要理解交互模式，而不仅仅是单个智能体的行为。因此，这些智能体的最佳提示不仅仅是严格的指令，而是定义了劳动分工、解决问题的方法和投入预算的协作框架。要做到这一点，依赖于仔细的提示和工具设计、可靠的启发式方法、可观测性以及紧密的反馈循环。请参阅我们 Cookbook 中开源提示以获取我们系统中的示例提示。

生产可靠性和工程挑战

在传统软件中，一个错误可能会破坏某个功能、降低性能或导致服务中断。在智能体系统中，微小的变化会级联成巨大的行为变化，这使得为必须在长期运行过程中维护状态的复杂智能体编写代码变得异常困难。

智能体是有状态的，错误会累积。 智能体可以长时间运行，在多次工具调用中维护状态。这意味着我们需要持久地执行代码并在此过程中处理错误。如果没有有效的缓解措施，微小的系统故障对智能体来说可能是灾难性的。当错误发生时，我们不能简单地从头开始：重新启动对用户来说既昂贵又令人沮丧。相反，我们构建了可以从智能体发生错误的地方恢复的系统。我们还利用模型的智能来优雅地处理问题：例如，让智能体知道工具何时出现故障并让其适应，效果出奇地好。我们将基于 Claude 构建的 AI 智能体的适应性与重试逻辑和定期检查点等确定性保障措施相结合。

调试受益于新方法。 智能体做出动态决策，并且即使使用相同的提示，在不同运行之间也是非确定性的。这使得调试更加困难。例如，用户会报告智能体“找不到明显的信息”，但我们看不出原因。是智能体使用了错误的搜索查询吗？选择了糟糕的来源？遇到了工具故障？添加完整的生产追踪使我们能够诊断智能体失败的原因并系统地解决问题。除了标准的可观测性之外，我们还监控智能体的决策模式和交互结构——所有这些都在不监控单个对话内容的情况下进行，以维护用户隐私。这种高级别的可观测性帮助我们诊断根本原因、发现意外行为并修复常见故障。

部署需要精心协调。 智能体系统是高度有状态的、由提示、工具和执行逻辑组成的网络，几乎持续运行。这意味着每当我们部署更新时，智能体可能处于其流程的任何位置。因此，我们需要防止我们善意的代码更改破坏现有智能体。我们不能同时将所有智能体更新到新版本。相反，我们使用彩虹部署来避免干扰正在运行的智能体，通过在保持新旧版本同时运行的情况下，逐渐将流量从旧版本转移到新版本。

同步执行造成瓶颈。 目前，我们的主智能体同步执行子智能体，等待每组子智能体完成后再继续。这简化了协调，但在智能体之间的信息流中造成了瓶颈。例如，主智能体无法引导子智能体，子智能体无法协调，整个系统可能会因为等待单个子智能体完成搜索而被阻塞。异步执行将启用额外的并行性：智能体并发工作并在需要时创建新的子智能体。但这种异步性在结果协调、状态一致性和跨子智能体的错误传播方面增加了挑战。随着模型能够处理更长、更复杂的研究任务，我们预计性能的提升将证明这种复杂性是值得的。

结论

在构建 AI 智能体时，最后一英里往往成为旅程的大部分。在开发人员机器上可以工作的代码库需要大量的工程才能成为可靠的生产系统。智能体系统中错误的复合性质意味着，对于传统软件而言微不足道的问题可能会完全使智能体脱轨。一个步骤的失败可能导致智能体探索完全不同的轨迹，从而导致不可预测的结果。由于本文中描述的所有原因，原型与生产之间的差距往往比预期的要大。

尽管存在这些挑战，多智能体系统已被证明对于开放式研究任务非常有价值。用户表示，Claude 帮助他们找到了以前没有考虑过的商业机会，导航了复杂的医疗保健选项，解决了棘手的技术错误，并通过发现他们自己无法找到的研究联系节省了长达数天的工作时间。通过精心的工程设计、全面的测试、注重细节的提示和工具设计、稳健的运营实践，以及对当前智能体能力有深刻理解的研究、产品和工程团队之间的紧密协作，多智能体研究系统可以大规模可靠地运行。我们已经看到这些系统正在改变人们解决复杂问题的方式。

一张 Clio 嵌入图，显示了当今人们使用研究功能最常见的方式。主要用例类别包括：开发跨专业领域的软件系统 (10%)，开发和优化专业及技术内容 (8%)，制定业务增长和创收策略 (8%)，协助学术研究和教育材料开发 (7%)，以及研究和验证有关人物、地点或组织的信息 (5%)。

致谢

由 Jeremy Hadfield、Barry Zhang、Kenneth Lien、Florian Scholz、Jeremy Fox 和 Daniel Ford 撰写。这项工作反映了 Anthropic 多个团队的集体努力，他们使研究功能成为可能。特别感谢 Anthropic 应用工程团队，他们的奉献精神将这个复杂的多智能体系统投入生产。我们也感谢早期用户提供的宝贵反馈。

附录

以下是一些关于多智能体系统的额外杂项提示。

对多轮交互中改变状态的智能体进行最终状态评估。 评估在多轮对话中修改持久状态的智能体带来了独特的挑战。与只读的研究任务不同，每个动作都可能改变后续步骤的环境，产生传统评估方法难以处理的依赖关系。我们发现在关注最终状态评估而非逐轮分析方面取得了成功。与其判断智能体是否遵循了特定过程，不如评估它是否达到了正确的最终状态。这种方法承认智能体可能会找到通往同一目标的不同路径，同时仍确保它们交付预期的结果。对于复杂的工作流程，将评估分解为应发生特定状态更改的离散检查点，而不是试图验证每个中间步骤。

长周期对话管理。 生产环境中的智能体通常会进行跨越数百轮的对话，需要仔细的上下文管理策略。随着对话的延长，标准的上下文窗口变得不足，需要智能压缩和记忆机制。我们实施了一些模式，其中智能体在进入新任务之前总结已完成的工作阶段并将基本信息存储在外部存储器中。当上下文限制接近时，智能体可以生成具有干净上下文的新子智能体，同时通过仔细的交接保持连续性。此外，当达到上下文限制时，它们可以从其内存中检索存储的上下文（如研究计划），而不是丢失先前的工作。这种分布式方法可以防止上下文溢出，同时在扩展交互中保持对话的连贯性。

子智能体输出到文件系统以最小化“传话游戏”效应。 对于某些类型的结果，直接的子智能体输出可以绕过主协调器，从而提高保真度和性能。与其要求子智能体通过主智能体传达所有信息，不如实施工件系统（artifact systems），让专门的智能体可以创建独立持久化的输出。子智能体调用工具将其工作存储在外部系统中，然后将轻量级引用传递回协调器。这可以防止在多阶段处理过程中的信息丢失，并减少因通过对话历史复制大型输出而产生的令牌开销。这种模式特别适用于结构化输出，如代码、报告或数据可视化，其中子智能体的专门提示比通过通用协调器进行过滤能产生更好的结果。