|
| 1 | +--- |
| 2 | +title: 'Introduction of Multi-agents system(In any task you want)' |
| 3 | +description: "" |
| 4 | +date: "2025-09-29" |
| 5 | +tags: |
| 6 | + - tag-one |
| 7 | +--- |
| 8 | + |
| 9 | +# Introduction of Multi-agents system(In any task you want) |
| 10 | + |
| 11 | +Multi-Agent System(多智能体系统)概览 |
| 12 | +1. 什么是 Multi-Agent System(多智能体系统, MAS)? |
| 13 | + |
| 14 | +多智能体系统(MAS)指由多个相对自治的 智能体(agent) 组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。 |
| 15 | +它关注的并非单个智能体的最优行为,而是 群体层面的组织、协调与涌现行为。 |
| 16 | +直观理解:可把 LLM 作为多个“角色”来 模拟团队/部门协作,共同完成任务。 |
| 17 | + |
| 18 | +2. 典型应用与问题类型 |
| 19 | + |
| 20 | +现实分布式问题:电网调度、智慧交通、供应链、灾害应对等——天然具备分布式、动态与不确定特性,单体系统难以兼顾全局最优与鲁棒性。 |
| 21 | + |
| 22 | +研究方向示例:generation、translation、repair、judge 等。 |
| 23 | + |
| 24 | +3. 多智能体的核心概念 |
| 25 | +3.1 智能体(Agent) |
| 26 | + |
| 27 | +在环境中 感知(Perception)—决策(Deliberation/Policy)—行动(Action) 的计算实体。 |
| 28 | + |
| 29 | +典型特性:自治性、反应性、前瞻性(主动性)、社会性(可交互)。 |
| 30 | + |
| 31 | +3.2 环境(Environment) |
| 32 | + |
| 33 | +智能体感知与行动的客体;可为 完全/部分可观测、确定/随机、静态/动态、连续/离散。 |
| 34 | + |
| 35 | +3.3 交互(Interaction) |
| 36 | + |
| 37 | +形式包括 通信、协商、竞争、合作、博弈 等。 |
| 38 | + |
| 39 | +3.4 组织(Organization) |
| 40 | + |
| 41 | +角色、层级、规范、协议与团队结构 的总和。 |
| 42 | + |
| 43 | +3.5 目标(Goals/Utility) |
| 44 | + |
| 45 | +个体目标与全局社会福利可能 一致或冲突,涉及 机制设计。最终目的应指向 任务完成与效用最优。 |
| 46 | + |
| 47 | +4. 系统构成与典型架构 |
| 48 | +4.1 智能体内部架构 |
| 49 | + |
| 50 | +反射式/行为式(Reactive):如 subsumption(抑制/分层行为),响应快但规划能力弱。 |
| 51 | + |
| 52 | +BDI(Belief–Desire–Intention):以信念/愿望/意图建模理性决策,适合可解释规划场景。 |
| 53 | + |
| 54 | +学习型:基于 RL/监督/自监督;在 MARL 中可共享或独立训练策略。 |
| 55 | + |
| 56 | +LLM-Agent:以 大语言模型 为核心,结合 工具调用、记忆、检索、反思与执行器,擅长复杂推理与开放环境任务。 |
| 57 | + |
| 58 | +4.2 多智能体体系结构 |
| 59 | + |
| 60 | +集中式编排(Orchestrator):中央调度(如 Planner/Router)分配任务;全局视角强,但有 单点瓶颈。 |
| 61 | + |
| 62 | +分布式协同(Peer-to-Peer):各智能体平等交互;弹性高但 协议复杂。 |
| 63 | + |
| 64 | +分层/混合式(Hierarchical/Hybrid):上层规划、下层执行;兼顾全局与局部效率。 |
| 65 | + |
| 66 | +黑板(Blackboard)/共享记忆:通过公共工作区交换假设与部分解。 |
| 67 | + |
| 68 | +4.3 通信与协调机制 |
| 69 | + |
| 70 | +通信语言/协议:早期如 KQML、FIPA-ACL;工程上常用 MQ/HTTP/gRPC 与结构化消息(JSON/Proto)。 |
| 71 | + |
| 72 | +4.4 协调方式 |
| 73 | + |
| 74 | +契约网(Contract Net)与拍卖/竞价:适合任务分派与资源竞争。 |
| 75 | + |
| 76 | +协商/投票/共识:如 Paxos/Raft 或多方投票策略。 |
| 77 | + |
| 78 | +编队/编组与角色切换:队形控制、动态角色分配。 |
| 79 | + |
| 80 | +机制设计:通过激励相容规则引导个体理性行为产生期望群体结果。 |
| 81 | + |
| 82 | +组织结构:层级(Hierarchy)、合弄(Holarchy)、团队/联盟(Team/Coalition)、基于角色与规范(Roles & Norms) 的社会化组织。 |
| 83 | + |
| 84 | +4.5 多智能体强化学习(MARL)要点 |
| 85 | + |
| 86 | +非平稳性:他人策略变化使环境对单体呈现非静态,训练更难。 |
| 87 | + |
| 88 | +训练-执行范式:集中式训练、分布式执行(CTDE) 常见。 |
| 89 | + |
| 90 | +4.6 方法族(举例) |
| 91 | + |
| 92 | +值分解:VDN、QMIX 将全局价值分解为个体价值。 |
| 93 | + |
| 94 | +Actor-Critic:如 MADDPG(集中式 Critic、分布式 Actor)。 |
| 95 | + |
| 96 | +对手建模/博弈学习:纳什均衡、可转移策略、元学习。 |
| 97 | + |
| 98 | +关键挑战:信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。 |
| 99 | + |
| 100 | +5. LLM 驱动的多智能体范式(Main Focus) |
| 101 | +5.1 角色分工 |
| 102 | + |
| 103 | +Planner(计划) |
| 104 | + |
| 105 | +Researcher(检索/分析) |
| 106 | + |
| 107 | +Coder/Executor(工具执行) |
| 108 | + |
| 109 | +Critic/Verifier(审查校验) |
| 110 | + |
| 111 | +Refiner(修复) |
| 112 | + |
| 113 | +5.2 协作模式 |
| 114 | + |
| 115 | +辩论/对话式求解(Debate/Deliberation):互评提升推理稳健性。 |
| 116 | + |
| 117 | +反思与记忆(Reflection/Memory):总结经验、长期记忆库、外部知识检索。 |
| 118 | + |
| 119 | +图式编排(Graph-of-Agents):以 DAG/状态机 显式表达任务流程。 |
| 120 | + |
| 121 | +5.3 工程要点 |
| 122 | + |
| 123 | +Prompt 模板化 |
| 124 | + |
| 125 | +工具/数据库/代码执行器接入 |
| 126 | + |
| 127 | +消息路由与缓存 |
| 128 | + |
| 129 | +成本与延迟控制 |
| 130 | + |
| 131 | +安全防护(越权/数据泄露/注入) |
| 132 | + |
| 133 | +6. 经典论文/工作推荐 |
| 134 | + |
| 135 | +AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation |
| 136 | + |
| 137 | +CAMEL: Communicative Agents for “Mind” Exploration of LLM Society |
| 138 | + |
| 139 | +Improving Factuality and Reasoning in Language Models through Multi-Agent Debate |
| 140 | + |
| 141 | +Should We Be Going MAD? A Look at Multi-Agent Debate |
| 142 | + |
| 143 | +Reflexion: Language Agents with Verbal Reinforcement Learning |
| 144 | + |
| 145 | +Self-Refine: Iterative Refinement with Self-Feedback |
| 146 | + |
| 147 | +Language Agents as Optimizable Graphs (GPTSwarm) |
| 148 | + |
| 149 | +Graph of Thoughts: Solving Elaborate Problems with LLMs |
0 commit comments