多智能体系统性能优化：从拓扑到训练的全方位指南

覆盖拓扑优化、流水线并行、RL训练框架与市场机制，构建高效协作的多Agent系统

高级约 25 分钟

多智能体系统性能优化：从拓扑到训练的全方位指南

覆盖拓扑优化、流水线并行、RL训练框架与市场机制，构建高效协作的多Agent系统

多智能体系统性能优化是多Agent落地中的关键挑战。本文从四个维度展开：固定拓扑下的Prompt优化（MASPOB）、流式通信加速（StreamMA）、多Agent强化学习框架（UnityMAS-O）以及去中心化市场机制（EoM）。这些方法分别解决了评估效率、延迟瓶颈、训练抽象和协调成本问题，为构建高效、可扩展的多Agent系统提供了系统化的技术路径。

multi-agent workflow rl fine-tuning evaluation

引言：多智能体系统的优化困境

多智能体系统（MAS）通过将复杂任务分解为多个专业Agent的协作，在代码生成、数学推理、问答等任务上展现出超越单模型的性能。然而，随着系统规模扩大，性能优化面临多重挑战：工作流拓扑往往因安全验证和合规审查而固定，无法随意调整；Agent间的串行通信导致延迟随深度线性增长；现有强化学习框架以单策略为核心，难以直接优化多Agent工作流；中心化协调机制成为性能瓶颈。

本文从四个前沿方向出发，系统性地探讨MAS优化策略：

固定拓扑下的Prompt优化：当工作流无法修改时，如何通过高效搜索各Agent的Prompt配置来提升性能。

流式通信加速：将流式输出引入Agent协作，实现流水线并行，降低延迟并提升推理质量。

多Agent强化学习框架：构建面向工作流的通用RL训练框架，支持角色解耦与异构训练。

去中心化市场机制：通过经济激励让Agent自发形成专业化和协作，避免中心化瓶颈。

这些方法并非互斥，而是可以组合使用。例如，在固定拓扑场景下，可先用MASPOB优化Prompt，再引入StreamMA加速通信；若需进一步训练，可借助UnityMAS-O进行RL优化。

固定拓扑下的Prompt优化：MASPOB

问题背景

在真实部署中，医疗诊断SOP、金融审计流程等MAS的工作流拓扑往往经过专家设计、安全验证和合规审查，一旦上线难以修改。此时，调整各Agent的Prompt成为改善系统性能的关键手段。然而，MAS的Prompt优化面临三大难点：

评估代价高昂：每次评估需完整执行MAS流程，涉及多次LLM调用。

拓扑诱导的耦合：上游Agent的Prompt变化影响下游输入分布，各Agent并非独立。

组合搜索空间爆炸：联合搜索空间随Agent数量指数增长。

MASPOB算法核心

香港中文大学（深圳）等团队提出的MASPOB框架，将Prompt优化建模为有预算的组合黑盒优化问题，包含三个核心组件：

拓扑感知的性能代理模型：将MAS工作流建模为有向无环图（DAG），以各Agent的Prompt嵌入为节点特征，采用图注意力网络（GAT）进行消息传递，显式建模上游Prompt变化对下游的影响。

基于Bandit的探索-利用权衡：采用线性置信上界（LinUCB）构造采集函数，在倾向于高预测性能的同时，对未充分探索的区域赋予更高评分。

坐标上升搜索：将联合优化分解为对各Agent的逐一单变量优化，大幅降低搜索复杂度。

实验结果

在问答（HotpotQA、DROP）、代码生成（HumanEval、MBPP）和数学推理（GSM8K、MATH）六个基准上，MASPOB在50次评估预算下平均得分80.58%，相较IO基线、AFlow、MIPRO分别提升12.02%、2.06%、1.71%。消融实验表明，GNN模块带来平均2.31%的性能提升，坐标上升在性能损失小于0.5%的前提下，运行时间减少98%以上。

流式通信加速：StreamMA

串行通信的代价

现有MAS框架普遍采用“先生成、再传输”的串行通信方式：上游Agent必须生成完整回复后才交给下游。这导致两个问题：

延迟线性增长：下游只能等待上游完成，端到端延迟随流水线深度线性增长。

错误继承：下游被迫读完上游的整段回复，包括质量不高的推理步骤，误差随链长累积。

研究表明，长链推理中早期步骤通常可靠，越往后越容易跑偏，CoT准确率在最优长度后会持续退化。

StreamMA方案

香港科技大学（广州）等团队提出的StreamMA，借鉴模型自身的流式输出机制，让上游每产出一个推理步骤就立刻转发给下游，实现流水线并行。核心设计：

所有Agent并发启动，各自维护输入队列。

每个Agent流式调用，每产出一个完整步骤立即推给下游队列。

下游处理第s步时，上游还在生成第s+1步。

下游Agent被调用S次，先前的步骤形成共享前缀，通过缓存命中降低成本。

关键洞察：让可靠的早期步骤优先到达下游，下游基于此建立独立推理轨迹，后期错误步骤的影响被稀释。

实验结果

在8个基准（AIME 2025/2026、HMMT 2026、GPQA-Diamond、HLE、LiveCodeBench）上，使用Claude Opus 4.6和GPT-5.4，StreamMA在三种DAG拓扑下全面超过串行和单模型，Claude上平均提升7.3个百分点，GPT上提升1.5个百分点。成本分析显示，由于缓存复用，流式方案的总成本甚至低于串行。此外，增加每个Agent的推理步骤数S，效果和速度同时持续上升，形成与“堆Agent数量”正交的全新缩放定律。

多Agent强化学习框架：UnityMAS-O

现有框架的局限

基于LLM的MAS大多无法训练：工作流靠Prompt、路由规则和手工交互协议拼凑。即使引入训练，也往往只训其中一个模型或角色。现有RL框架（TRL、OpenRLHF、verl等）以单策略优化为核心，无法直接表达多Agent工作流中的角色分工、拓扑结构和奖励分配。

UnityMAS-O设计

中国人民大学和小红书团队提出的UnityMAS-O，通过扩展verl，将优化对象从“单策略”提升到“多智能体工作流”。核心抽象包括：

逻辑角色：描述节点在工作流中的职责（如planner、retriever、coder），带Prompt模板、输入输出格式、可用工具等。角色是工作流级别的对象，不绑定具体参数。

角色到模型的映射：支持全共享（所有角色同一模型）、部分共享（角色分组共享参数）、全分离（每个角色独立模型）。

工作流图：用户定义的有向图，支持顺序流水线、并行分支、迭代循环等结构。

奖励函数：每个角色可定义自己的奖励，支持节点级、轮次级、轨迹级信息组合，覆盖规则式格式奖励、环境奖励、模型式奖励。

系统实现与训练流程

系统采用星型拓扑runtime：中央控制器维护全局训练循环，调度工作流状态；Ray执行层提供远程调用和GPU管理；LLM worker组绑定物理模型实例。训练时，控制器只搬运轻量元数据（角色身份、路由标识、输出、奖励），重型张量（token概率、注意力掩码）留在本地worker组。

实验结果

在检索和代码任务上，所有工作流、所有模型规模训练后均有提升。小模型增益尤为显著：QD-Retrieve-Answer在NQ上F1从0.022涨到0.445，HotpotQA上从0.032涨到0.397。代码任务中，训练后测试全过率大幅提升，同时平均验证轮次下降，说明训练不仅提高了准确率，还提高了效率。参数共享实验表明，多角色共享物理模型时仍能有效训练，实践中可减少模型组数量。

去中心化市场机制：EoM

中心化协调的硬伤

主流MAS采用中心化编排（如MetaGPT、AutoGen），但存在结构性硬伤：规划被卡在单一闸口，协调成本随规模线性增长。哈佛大学和MIT团队提出的EoM，受哈耶克市场经济理论启发，设计一套经济激励让Agent自发形成专业化和协作，无需中央控制。

核心机制

EoM将一群LLM Agent建模为存在经济往来的“社会”，每个Agent由唤醒条件、行动策略、固定出价和当前财富定义。系统包含两个过程：

规划（拍卖与交易）：每步所有Agent判断唤醒条件，够资格者中出价最高者赢得行动权。赢家将出价付给上一步出手的Agent，同时收取环境奖励。这实现了去中心化信用分配：为后续高价值动作铺路的Agent积累财富，带系统进死胡同的Agent失血。

适应（进化）：交租、清退、注入新Agent。利用：有钱的Agent变异繁衍；探索：破产Agent做反面教材生成修正版。新手保护：新Agent首次出价定为全场最高。

实验结果

在数学推理、加速器设计、金融研究、科学研究和分布式系统优化五个领域，EoM让“残缺”Agent（被故意削弱，如只能输出128 token、只能用一个工具）抱团后，性能反超具备完整功能的强Agent。数学推理准确率从15.9%提升到57.0%，超过完整基线的51.9%；加速器设计EDP压到39.3，优于完整ReAct的43.1。消融实验表明，去掉经济参数（如租金、奖励）或去掉拍卖、利用、探索等组件，性能显著下降，证明经济机制是核心引擎。

总结与展望

多智能体系统优化正从多个维度同步推进：

Prompt层面：MASPOB在固定拓扑下实现样本高效的联合优化。

通信层面：StreamMA通过流式通信打破串行瓶颈。

训练层面：UnityMAS-O提供面向工作流的通用RL框架。

组织层面：EoM用市场机制实现去中心化协调。

这些方法共同指向一个趋势：未来的MAS优化将更加系统化、自动化，减少人工干预。对于开发者而言，理解这些技术有助于根据实际场景选择合适的优化策略。例如，若工作流固定但性能不足，可尝试MASPOB；若延迟成为瓶颈，可引入StreamMA；若需持续提升系统上限，可考虑UnityMAS-O或EoM。

想深入了解多Agent系统的基础概念，可参考AI Agent与多智能体；若关注工作流设计，可阅读工作流与编排；对于强化学习训练，可进一步探索微调与RL。

FAQ

MASPOB是否适用于非DAG拓扑的工作流？ MASPOB将工作流建模为有向无环图（DAG），这是大多数MAS的常见形式。对于包含循环的拓扑，理论上可以通过展开循环或引入时间步来适配，但当前版本主要针对DAG设计。

StreamMA对任务类型有什么要求？ StreamMA适用于可被分解为步骤的任务，如数学推理、代码生成、科学分析等。对于开放式创意写作等难以分步的任务，流式通信的优势不明显。

UnityMAS-O支持哪些RL算法？ 当前版本基于verl实现，主要支持PPO算法。未来可扩展支持GRPO、REINFORCE等，但核心抽象（角色-模型解耦、工作流图、角色级奖励）与算法无关。

EoM的经济参数如何设置？ 论文实验表明，租金、奖励缩放、智能体数量等参数需要平衡。建议从默认参数开始，根据任务调整租金倍数和奖励缩放因子，避免过早淘汰或过度保护。

这些方法可以组合使用吗？ 可以。例如，先用MASPOB优化固定拓扑下的Prompt，再引入StreamMA加速通信；若需进一步训练，可借助UnityMAS-O进行RL优化。EoM则提供了一种去中心化的替代组织方式，可与其他方法互补。

哪种方法最适合我的场景？ 取决于约束条件：若工作流固定且评估预算有限，选MASPOB；若延迟敏感且任务可分解，选StreamMA；若希望持续训练提升，选UnityMAS-O；若追求去中心化和鲁棒性，选EoM。

所属主题：AI Agent 与多智能体工作流与自动化模型微调与训练

Getting Started

Learn how to get started with this application.

Learn more

Installation Guide

多智能体系统性能优化：从拓扑到训练的全方位指南

引言：多智能体系统的优化困境

固定拓扑下的Prompt优化：MASPOB

问题背景

MASPOB算法核心

实验结果

流式通信加速：StreamMA

串行通信的代价

StreamMA方案

实验结果

多Agent强化学习框架：UnityMAS-O

现有框架的局限

UnityMAS-O设计

系统实现与训练流程

实验结果

去中心化市场机制：EoM

中心化协调的硬伤

核心机制

实验结果

总结与展望

FAQ

Documentation

Getting Started

Learn more