@@ -8,100 +8,142 @@ tags:
88
99# Introduction of Multi-agents system(In any task you want)
1010
11- 1 . 什么是 Multi-Agent System(多智能体系统)?
11+ Multi-Agent System(多智能体系统)概览
12+ 1 . 什么是 Multi-Agent System(多智能体系统, MAS)?
1213
13- 多智能体系统(MAS)指由多个相对自治的“智能体(agent)”组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。它关注的不是单个智能体的最优行为,而是群体层面的组织、协调与涌现行为。你可以理解为你使用LLM去模拟一个团队或者是一个真实存在的部门进行合作和任务的完成。
14+ 多智能体系统(MAS)指由多个相对自治的 智能体(agent) 组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。
15+ 它关注的并非单个智能体的最优行为,而是 群体层面的组织、协调与涌现行为。
16+ 直观理解:可把 LLM 作为多个“角色”来 模拟团队/部门协作,共同完成任务。
1417
15- 2.可能应用的问题或者任务是什么?
18+ 2 . 典型应用与问题类型
1619
17- (1)很多现实问题(电网调度、智慧交通、供应链、灾害应对)天然是分布式、动态且不确定,单体系统难以全局最优与鲁棒的任务都可以用多智能体进行合作。
18- (2)research topic:Generation,translation,repair,judge...
20+ 现实分布式问题:电网调度、智慧交通、供应链、灾害应对等——天然具备分布式、动态与不确定特性,单体系统难以兼顾全局最优与鲁棒性。
1921
22+ 研究方向示例:generation、translation、repair、judge 等。
2023
21- 3 . 那么,多智能体的核心概念是什么?
24+ 3 . 多智能体的核心概念
25+ 3.1 智能体(Agent)
2226
23- (1)智能体(Agent):在环境中感知(Perception)、决策(Deliberation/Policy)、行动(Action)的计算实体。典型特性: 自治性、反应性、前瞻性(主动性)、社会性(可交互)。
24- 环境(Environment):智能体感知与行动的客体,可为完全/部分可观测、确定/随机、静态/动态、连续/离散。
25- 交互(Interaction):通信、协商、竞争、合作、博弈等。
26- 组织(Organization):角色、层级、规范、协议与团队结构的总和。
27- 目标(Goals/Utility):个体目标与全局社会福利可能一致或冲突,牵涉到机制设计。最终的目的应当是针对当前的任务的完成。
27+ 在环境中 感知(Perception)—决策(Deliberation/Policy)—行动(Action) 的计算实体。
28+
29+ 典型特性:自治性、反应性、前瞻性(主动性)、社会性(可交互)。
30+
31+ 3.2 环境(Environment)
32+
33+ 智能体感知与行动的客体;可为 完全/部分可观测、确定/随机、静态/动态、连续/离散。
34+
35+ 3.3 交互(Interaction)
36+
37+ 形式包括 通信、协商、竞争、合作、博弈 等。
38+
39+ 3.4 组织(Organization)
40+
41+ 角色、层级、规范、协议与团队结构 的总和。
42+
43+ 3.5 目标(Goals/Utility)
44+
45+ 个体目标与全局社会福利可能 一致或冲突,涉及 机制设计。最终目的应指向 任务完成与效用最优。
2846
29474 . 系统构成与典型架构
30-
31- 1 ) 智能体内部架构
48+ 4.1 智能体内部架构
3249
33- 反射式/行为式(Reactive):如 subsumption(抑制/分层行为),快但缺少计划 。
50+ 反射式/行为式(Reactive):如 subsumption(抑制/分层行为),响应快但规划能力弱 。
3451
35- 计划-信念-愿望( BDI):以 Belief/Desire/Intention 建模理性决策,适合需要可解释规划的场景 。
52+ BDI(Belief–Desire–Intention):以信念/愿望/意图建模理性决策,适合可解释规划场景 。
3653
37- 学习型:基于 RL/监督/自监督学习 ;在 MARL 中共享/独立训练策略 。
54+ 学习型:基于 RL/监督/自监督 ;在 MARL 中可共享或独立训练策略 。
3855
39- LLM-Agent:以大语言模型为核心,结合工具调用 、记忆、检索、反思与执行器,擅长复杂推理与开放环境任务。
56+ LLM-Agent:以 大语言模型 为核心,结合 工具调用 、记忆、检索、反思与执行器,擅长复杂推理与开放环境任务。
4057
41- 2 ) 多智能体体系结构
58+ 4.2 多智能体体系结构
4259
43- 集中式编排(Orchestrator):中央调度(Planner/Router)分配任务,优点是全局视角强,缺点是单点瓶颈 。
60+ 集中式编排(Orchestrator):中央调度(如 Planner/Router)分配任务;全局视角强,但有 单点瓶颈 。
4461
45- 分布式协同(Peer-to-Peer):各智能体平等交互,弹性高但协议复杂 。
62+ 分布式协同(Peer-to-Peer):各智能体平等交互;弹性高但 协议复杂 。
4663
47- 分层/混合式(Hierarchical/Hybrid):上层规划、下层执行, 兼顾全局与局部效率。
64+ 分层/混合式(Hierarchical/Hybrid):上层规划、下层执行; 兼顾全局与局部效率。
4865
4966黑板(Blackboard)/共享记忆:通过公共工作区交换假设与部分解。
5067
51- 3) 通信与协调机制
68+ 4.3 通信与协调机制
5269
53- 通信语言与协议:早期有 KQML、FIPA-ACL;工程上常用基于消息队列( MQ/HTTP/gRPC)的结构化消息 (JSON/Proto)。
70+ 通信语言/协议:早期如 KQML、FIPA-ACL;工程上常用 MQ/HTTP/gRPC 与结构化消息 (JSON/Proto)。
5471
55- 4) 协调方式:
72+ 4.4 协调方式
5673
5774契约网(Contract Net)与拍卖/竞价:适合任务分派与资源竞争。
5875
59- 协商/投票/共识:如分布式一致性( Paxos/Raft) 或多方投票策略。
76+ 协商/投票/共识:如 Paxos/Raft 或多方投票策略。
6077
6178编队/编组与角色切换:队形控制、动态角色分配。
6279
63- 机制设计:通过激励兼容的规则让个体理性行为产生期望的群体结果 。
80+ 机制设计:通过激励相容规则引导个体理性行为产生期望群体结果 。
6481
65- 组织结构:层级(Hierarchy)、合弄(Holarchy)、团队/联盟(Team/Coalition)、基于角色与规范(Roles & Norms)的社会化组织。
82+ 组织结构:层级(Hierarchy)、合弄(Holarchy)、团队/联盟(Team/Coalition)、基于角色与规范(Roles & Norms) 的社会化组织。
6683
67- 5) 多智能体强化学习(MARL)要点
84+ 4.5 多智能体强化学习(MARL)要点
6885
69- 非平稳性:他人策略变化导致环境对单体“非静态” ,训练更难。
86+ 非平稳性:他人策略变化使环境对单体呈现非静态 ,训练更难。
7087
71- 训练-执行范式:集中式训练、分布式执行(CTDE)** 较常见 。
88+ 训练-执行范式:集中式训练、分布式执行(CTDE) 常见 。
7289
73- 6) 方法族:
90+ 4.6 方法族(举例)
7491
75- 值分解:VDN、QMIX 把全局价值分解为个体价值 。
92+ 值分解:VDN、QMIX 将全局价值分解为个体价值 。
7693
7794Actor-Critic:如 MADDPG(集中式 Critic、分布式 Actor)。
7895
7996对手建模/博弈学习:纳什均衡、可转移策略、元学习。
8097
8198关键挑战:信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。
8299
83- 7)LLM 驱动的多智能体范式(main focus on this)
100+ 5 . LLM 驱动的多智能体范式(Main Focus)
101+ 5.1 角色分工
102+
103+ Planner(计划)
104+
105+ Researcher(检索/分析)
106+
107+ Coder/Executor(工具执行)
108+
109+ Critic/Verifier(审查校验)
110+
111+ Refiner(修复)
112+
113+ 5.2 协作模式
114+
115+ 辩论/对话式求解(Debate/Deliberation):互评提升推理稳健性。
116+
117+ 反思与记忆(Reflection/Memory):总结经验、长期记忆库、外部知识检索。
118+
119+ 图式编排(Graph-of-Agents):以 DAG/状态机 显式表达任务流程。
120+
121+ 5.3 工程要点
122+
123+ Prompt 模板化
124+
125+ 工具/数据库/代码执行器接入
126+
127+ 消息路由与缓存
128+
129+ 成本与延迟控制
130+
131+ 安全防护(越权/数据泄露/注入)
132+
133+ 6 . 经典论文/工作推荐
134+
135+ AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
136+
137+ CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
138+
139+ Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
84140
85- 角色分工:Planner(计划)、Researcher(检索/分析)、Coder/Executor(工具执行)、Critic/Verifier(审查校验)、Refiner(修复)。
141+ Should We Be Going MAD? A Look at Multi-Agent Debate
86142
87- 协作模式:
88-
89- 辩论/对话式求解(Debate/Deliberation):通过互评提升推理稳健性。
90-
91- 反思与记忆(Reflection/Memory):总结经验、长期记忆库、外部知识检索。
92-
93- 图式编排(Graph-of-Agents):用有向图把任务流程显式化(如 DAG/状态机)。
94-
95- 工程要点:提示(prompt)模板化、工具/数据库/代码执行器接入、消息路由、缓存、成本与延迟控制、安全防护(越权/数据泄露/注入)。
143+ Reflexion: Language Agents with Verbal Reinforcement Learning
96144
145+ Self-Refine: Iterative Refinement with Self-Feedback
97146
98- 5.经典论文推荐:
147+ Language Agents as Optimizable Graphs (GPTSwarm)
99148
100- (1)AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
101- (2)CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
102- (3)Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
103- (4)Should We Be Going MAD? A Look at Multi-Agent Debate
104- (5)Reflexion: Language Agents with Verbal Reinforcement Learning
105- (6)Self-Refine: Iterative Refinement with Self-Feedback
106- (7)Language Agents as Optimizable Graphs (GPTSwarm)
107- (8)Graph of Thoughts: Solving Elaborate Problems with LLMs
149+ Graph of Thoughts: Solving Elaborate Problems with LLMs
0 commit comments