多智能体系统性能优化:从拓扑到训练的全方位指南
覆盖拓扑优化、流水线并行、RL训练框架与市场机制,构建高效协作的多Agent系统
多智能体系统性能优化:从拓扑到训练的全方位指南
覆盖拓扑优化、流水线并行、RL训练框架与市场机制,构建高效协作的多Agent系统
多智能体系统性能优化是多Agent落地中的关键挑战。本文从四个维度展开:固定拓扑下的Prompt优化(MASPOB)、流式通信加速(StreamMA)、多Agent强化学习框架(UnityMAS-O)以及去中心化市场机制(EoM)。这些方法分别解决了评估效率、延迟瓶颈、训练抽象和协调成本问题,为构建高效、可扩展的多Agent系统提供了系统化的技术路径。
引言:多智能体系统的优化困境
多智能体系统(MAS)通过将复杂任务分解为多个专业Agent的协作,在代码生成、数学推理、问答等任务上展现出超越单模型的性能。然而,随着系统规模扩大,性能优化面临多重挑战:工作流拓扑往往因安全验证和合规审查而固定,无法随意调整;Agent间的串行通信导致延迟随深度线性增长;现有强化学习框架以单策略为核心,难以直接优化多Agent工作流;中心化协调机制成为性能瓶颈。
本文从四个前沿方向出发,系统性地探讨MAS优化策略:
这些方法并非互斥,而是可以组合使用。例如,在固定拓扑场景下,可先用MASPOB优化Prompt,再引入StreamMA加速通信;若需进一步训练,可借助UnityMAS-O进行RL优化。
固定拓扑下的Prompt优化:MASPOB
问题背景
在真实部署中,医疗诊断SOP、金融审计流程等MAS的工作流拓扑往往经过专家设计、安全验证和合规审查,一旦上线难以修改。此时,调整各Agent的Prompt成为改善系统性能的关键手段。然而,MAS的Prompt优化面临三大难点:
MASPOB算法核心
香港中文大学(深圳)等团队提出的MASPOB框架,将Prompt优化建模为有预算的组合黑盒优化问题,包含三个核心组件:
实验结果
在问答(HotpotQA、DROP)、代码生成(HumanEval、MBPP)和数学推理(GSM8K、MATH)六个基准上,MASPOB在50次评估预算下平均得分80.58%,相较IO基线、AFlow、MIPRO分别提升12.02%、2.06%、1.71%。消融实验表明,GNN模块带来平均2.31%的性能提升,坐标上升在性能损失小于0.5%的前提下,运行时间减少98%以上。
流式通信加速:StreamMA
串行通信的代价
现有MAS框架普遍采用“先生成、再传输”的串行通信方式:上游Agent必须生成完整回复后才交给下游。这导致两个问题:
研究表明,长链推理中早期步骤通常可靠,越往后越容易跑偏,CoT准确率在最优长度后会持续退化。
StreamMA方案
香港科技大学(广州)等团队提出的StreamMA,借鉴模型自身的流式输出机制,让上游每产出一个推理步骤就立刻转发给下游,实现流水线并行。核心设计:
关键洞察:让可靠的早期步骤优先到达下游,下游基于此建立独立推理轨迹,后期错误步骤的影响被稀释。
实验结果
在8个基准(AIME 2025/2026、HMMT 2026、GPQA-Diamond、HLE、LiveCodeBench)上,使用Claude Opus 4.6和GPT-5.4,StreamMA在三种DAG拓扑下全面超过串行和单模型,Claude上平均提升7.3个百分点,GPT上提升1.5个百分点。成本分析显示,由于缓存复用,流式方案的总成本甚至低于串行。此外,增加每个Agent的推理步骤数S,效果和速度同时持续上升,形成与“堆Agent数量”正交的全新缩放定律。
多Agent强化学习框架:UnityMAS-O
现有框架的局限
基于LLM的MAS大多无法训练:工作流靠Prompt、路由规则和手工交互协议拼凑。即使引入训练,也往往只训其中一个模型或角色。现有RL框架(TRL、OpenRLHF、verl等)以单策略优化为核心,无法直接表达多Agent工作流中的角色分工、拓扑结构和奖励分配。
UnityMAS-O设计
中国人民大学和小红书团队提出的UnityMAS-O,通过扩展verl,将优化对象从“单策略”提升到“多智能体工作流”。核心抽象包括:
系统实现与训练流程
系统采用星型拓扑runtime:中央控制器维护全局训练循环,调度工作流状态;Ray执行层提供远程调用和GPU管理;LLM worker组绑定物理模型实例。训练时,控制器只搬运轻量元数据(角色身份、路由标识、输出、奖励),重型张量(token概率、注意力掩码)留在本地worker组。
实验结果
在检索和代码任务上,所有工作流、所有模型规模训练后均有提升。小模型增益尤为显著:QD-Retrieve-Answer在NQ上F1从0.022涨到0.445,HotpotQA上从0.032涨到0.397。代码任务中,训练后测试全过率大幅提升,同时平均验证轮次下降,说明训练不仅提高了准确率,还提高了效率。参数共享实验表明,多角色共享物理模型时仍能有效训练,实践中可减少模型组数量。
去中心化市场机制:EoM
中心化协调的硬伤
主流MAS采用中心化编排(如MetaGPT、AutoGen),但存在结构性硬伤:规划被卡在单一闸口,协调成本随规模线性增长。哈佛大学和MIT团队提出的EoM,受哈耶克市场经济理论启发,设计一套经济激励让Agent自发形成专业化和协作,无需中央控制。
核心机制
EoM将一群LLM Agent建模为存在经济往来的“社会”,每个Agent由唤醒条件、行动策略、固定出价和当前财富定义。系统包含两个过程:
实验结果
在数学推理、加速器设计、金融研究、科学研究和分布式系统优化五个领域,EoM让“残缺”Agent(被故意削弱,如只能输出128 token、只能用一个工具)抱团后,性能反超具备完整功能的强Agent。数学推理准确率从15.9%提升到57.0%,超过完整基线的51.9%;加速器设计EDP压到39.3,优于完整ReAct的43.1。消融实验表明,去掉经济参数(如租金、奖励)或去掉拍卖、利用、探索等组件,性能显著下降,证明经济机制是核心引擎。
总结与展望
多智能体系统优化正从多个维度同步推进:
这些方法共同指向一个趋势:未来的MAS优化将更加系统化、自动化,减少人工干预。对于开发者而言,理解这些技术有助于根据实际场景选择合适的优化策略。例如,若工作流固定但性能不足,可尝试MASPOB;若延迟成为瓶颈,可引入StreamMA;若需持续提升系统上限,可考虑UnityMAS-O或EoM。
想深入了解多Agent系统的基础概念,可参考AI Agent与多智能体;若关注工作流设计,可阅读工作流与编排;对于强化学习训练,可进一步探索微调与RL。
FAQ
MASPOB是否适用于非DAG拓扑的工作流? MASPOB将工作流建模为有向无环图(DAG),这是大多数MAS的常见形式。对于包含循环的拓扑,理论上可以通过展开循环或引入时间步来适配,但当前版本主要针对DAG设计。
StreamMA对任务类型有什么要求? StreamMA适用于可被分解为步骤的任务,如数学推理、代码生成、科学分析等。对于开放式创意写作等难以分步的任务,流式通信的优势不明显。
UnityMAS-O支持哪些RL算法? 当前版本基于verl实现,主要支持PPO算法。未来可扩展支持GRPO、REINFORCE等,但核心抽象(角色-模型解耦、工作流图、角色级奖励)与算法无关。
EoM的经济参数如何设置? 论文实验表明,租金、奖励缩放、智能体数量等参数需要平衡。建议从默认参数开始,根据任务调整租金倍数和奖励缩放因子,避免过早淘汰或过度保护。
这些方法可以组合使用吗? 可以。例如,先用MASPOB优化固定拓扑下的Prompt,再引入StreamMA加速通信;若需进一步训练,可借助UnityMAS-O进行RL优化。EoM则提供了一种去中心化的替代组织方式,可与其他方法互补。
哪种方法最适合我的场景? 取决于约束条件:若工作流固定且评估预算有限,选MASPOB;若延迟敏感且任务可分解,选StreamMA;若希望持续训练提升,选UnityMAS-O;若追求去中心化和鲁棒性,选EoM。
相关教程
系统讲解后训练中的关键方法(SFT、RLHF、OPD、PEFT),并给出评估通用能力损失的量化方法
结合制造业、金融等场景,深入讲解复杂文档解析、本体约束、缓存优化等 RAG 进阶技术
从手动提示到自动化循环,系统化构建智能体协作体系
系统梳理 Harness 概念、设计原则与落地经验,帮助读者构建生产级 Agent 运行环境
Building high-quality fine-tuning datasets from scratch — step-by-step implementation guide
Combining quantization with LoRA for 4-bit fine-tuning — step-by-step implementation guide