Skip to content

Commit 0a63b34

Browse files
authored
Update introduction_of_multi-agents_system.md
change format
1 parent 89b1307 commit 0a63b34

File tree

1 file changed

+94
-52
lines changed

1 file changed

+94
-52
lines changed

app/docs/ai/Introduction-of-Multi-agents-system/introduction_of_multi-agents_system.md

Lines changed: 94 additions & 52 deletions
Original file line numberDiff line numberDiff line change
@@ -8,100 +8,142 @@ tags:
88

99
# Introduction of Multi-agents system(In any task you want)
1010

11-
1. 什么是 Multi-Agent System(多智能体系统)?
11+
Multi-Agent System(多智能体系统)概览
12+
1. 什么是 Multi-Agent System(多智能体系统, MAS)?
1213

13-
多智能体系统(MAS)指由多个相对自治的“智能体(agent)”组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。它关注的不是单个智能体的最优行为,而是群体层面的组织、协调与涌现行为。你可以理解为你使用LLM去模拟一个团队或者是一个真实存在的部门进行合作和任务的完成。
14+
多智能体系统(MAS)指由多个相对自治的 智能体(agent) 组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。
15+
它关注的并非单个智能体的最优行为,而是 群体层面的组织、协调与涌现行为。
16+
直观理解:可把 LLM 作为多个“角色”来 模拟团队/部门协作,共同完成任务。
1417

15-
2.可能应用的问题或者任务是什么?
18+
2. 典型应用与问题类型
1619

17-
(1)很多现实问题(电网调度、智慧交通、供应链、灾害应对)天然是分布式、动态且不确定,单体系统难以全局最优与鲁棒的任务都可以用多智能体进行合作。
18-
(2)research topic:Generation,translation,repair,judge...
20+
现实分布式问题:电网调度、智慧交通、供应链、灾害应对等——天然具备分布式、动态与不确定特性,单体系统难以兼顾全局最优与鲁棒性。
1921

22+
研究方向示例:generation、translation、repair、judge 等。
2023

21-
3. 那么,多智能体的核心概念是什么?
24+
3. 多智能体的核心概念
25+
3.1 智能体(Agent)
2226

23-
(1)智能体(Agent):在环境中感知(Perception)、决策(Deliberation/Policy)、行动(Action)的计算实体。典型特性: 自治性、反应性、前瞻性(主动性)、社会性(可交互)。
24-
环境(Environment):智能体感知与行动的客体,可为完全/部分可观测、确定/随机、静态/动态、连续/离散。
25-
交互(Interaction):通信、协商、竞争、合作、博弈等。
26-
组织(Organization):角色、层级、规范、协议与团队结构的总和。
27-
目标(Goals/Utility):个体目标与全局社会福利可能一致或冲突,牵涉到机制设计。最终的目的应当是针对当前的任务的完成。
27+
在环境中 感知(Perception)—决策(Deliberation/Policy)—行动(Action) 的计算实体。
28+
29+
典型特性:自治性、反应性、前瞻性(主动性)、社会性(可交互)。
30+
31+
3.2 环境(Environment)
32+
33+
智能体感知与行动的客体;可为 完全/部分可观测、确定/随机、静态/动态、连续/离散。
34+
35+
3.3 交互(Interaction)
36+
37+
形式包括 通信、协商、竞争、合作、博弈 等。
38+
39+
3.4 组织(Organization)
40+
41+
角色、层级、规范、协议与团队结构 的总和。
42+
43+
3.5 目标(Goals/Utility)
44+
45+
个体目标与全局社会福利可能 一致或冲突,涉及 机制设计。最终目的应指向 任务完成与效用最优。
2846

2947
4. 系统构成与典型架构
30-
31-
1) 智能体内部架构
48+
4.1 智能体内部架构
3249

33-
反射式/行为式(Reactive):如 subsumption(抑制/分层行为),快但缺少计划
50+
反射式/行为式(Reactive):如 subsumption(抑制/分层行为),响应快但规划能力弱
3451

35-
计划-信念-愿望(BDI):以 Belief/Desire/Intention 建模理性决策,适合需要可解释规划的场景
52+
BDI(Belief–Desire–Intention):以信念/愿望/意图建模理性决策,适合可解释规划场景
3653

37-
学习型:基于 RL/监督/自监督学习;在 MARL 中共享/独立训练策略
54+
学习型:基于 RL/监督/自监督;在 MARL 中可共享或独立训练策略
3855

39-
LLM-Agent:以大语言模型为核心,结合工具调用、记忆、检索、反思与执行器,擅长复杂推理与开放环境任务。
56+
LLM-Agent:以 大语言模型 为核心,结合 工具调用、记忆、检索、反思与执行器,擅长复杂推理与开放环境任务。
4057

41-
2) 多智能体体系结构
58+
4.2 多智能体体系结构
4259

43-
集中式编排(Orchestrator):中央调度(Planner/Router)分配任务,优点是全局视角强,缺点是单点瓶颈
60+
集中式编排(Orchestrator):中央调度(Planner/Router)分配任务;全局视角强,但有 单点瓶颈
4461

45-
分布式协同(Peer-to-Peer):各智能体平等交互,弹性高但协议复杂
62+
分布式协同(Peer-to-Peer):各智能体平等交互;弹性高但 协议复杂
4663

47-
分层/混合式(Hierarchical/Hybrid):上层规划、下层执行兼顾全局与局部效率。
64+
分层/混合式(Hierarchical/Hybrid):上层规划、下层执行兼顾全局与局部效率。
4865

4966
黑板(Blackboard)/共享记忆:通过公共工作区交换假设与部分解。
5067

51-
3)通信与协调机制
68+
4.3 通信与协调机制
5269

53-
通信语言与协议:早期有 KQML、FIPA-ACL;工程上常用基于消息队列(MQ/HTTP/gRPC)的结构化消息(JSON/Proto)。
70+
通信语言/协议:早期如 KQML、FIPA-ACL;工程上常用 MQ/HTTP/gRPC 与结构化消息(JSON/Proto)。
5471

55-
4协调方式
72+
4.4 协调方式
5673

5774
契约网(Contract Net)与拍卖/竞价:适合任务分派与资源竞争。
5875

59-
协商/投票/共识:如分布式一致性(Paxos/Raft或多方投票策略。
76+
协商/投票/共识:Paxos/Raft 或多方投票策略。
6077

6178
编队/编组与角色切换:队形控制、动态角色分配。
6279

63-
机制设计:通过激励兼容的规则让个体理性行为产生期望的群体结果
80+
机制设计:通过激励相容规则引导个体理性行为产生期望群体结果
6481

65-
组织结构:层级(Hierarchy)、合弄(Holarchy)、团队/联盟(Team/Coalition)、基于角色与规范(Roles & Norms)的社会化组织。
82+
组织结构:层级(Hierarchy)、合弄(Holarchy)、团队/联盟(Team/Coalition)、基于角色与规范(Roles & Norms) 的社会化组织。
6683

67-
5)多智能体强化学习(MARL)要点
84+
4.5 多智能体强化学习(MARL)要点
6885

69-
非平稳性:他人策略变化导致环境对单体“非静态”,训练更难。
86+
非平稳性:他人策略变化使环境对单体呈现非静态,训练更难。
7087

71-
训练-执行范式:集中式训练、分布式执行(CTDE)**较常见
88+
训练-执行范式:集中式训练、分布式执行(CTDE) 常见
7289

73-
6)方法族
90+
4.6 方法族(举例)
7491

75-
值分解:VDN、QMIX 把全局价值分解为个体价值
92+
值分解:VDN、QMIX 将全局价值分解为个体价值
7693

7794
Actor-Critic:如 MADDPG(集中式 Critic、分布式 Actor)。
7895

7996
对手建模/博弈学习:纳什均衡、可转移策略、元学习。
8097

8198
关键挑战:信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。
8299

83-
7)LLM 驱动的多智能体范式(main focus on this)
100+
5. LLM 驱动的多智能体范式(Main Focus)
101+
5.1 角色分工
102+
103+
Planner(计划)
104+
105+
Researcher(检索/分析)
106+
107+
Coder/Executor(工具执行)
108+
109+
Critic/Verifier(审查校验)
110+
111+
Refiner(修复)
112+
113+
5.2 协作模式
114+
115+
辩论/对话式求解(Debate/Deliberation):互评提升推理稳健性。
116+
117+
反思与记忆(Reflection/Memory):总结经验、长期记忆库、外部知识检索。
118+
119+
图式编排(Graph-of-Agents):以 DAG/状态机 显式表达任务流程。
120+
121+
5.3 工程要点
122+
123+
Prompt 模板化
124+
125+
工具/数据库/代码执行器接入
126+
127+
消息路由与缓存
128+
129+
成本与延迟控制
130+
131+
安全防护(越权/数据泄露/注入)
132+
133+
6. 经典论文/工作推荐
134+
135+
AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
136+
137+
CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
138+
139+
Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
84140

85-
角色分工:Planner(计划)、Researcher(检索/分析)、Coder/Executor(工具执行)、Critic/Verifier(审查校验)、Refiner(修复)。
141+
Should We Be Going MAD? A Look at Multi-Agent Debate
86142

87-
协作模式:
88-
89-
辩论/对话式求解(Debate/Deliberation):通过互评提升推理稳健性。
90-
91-
反思与记忆(Reflection/Memory):总结经验、长期记忆库、外部知识检索。
92-
93-
图式编排(Graph-of-Agents):用有向图把任务流程显式化(如 DAG/状态机)。
94-
95-
工程要点:提示(prompt)模板化、工具/数据库/代码执行器接入、消息路由、缓存、成本与延迟控制、安全防护(越权/数据泄露/注入)。
143+
Reflexion: Language Agents with Verbal Reinforcement Learning
96144

145+
Self-Refine: Iterative Refinement with Self-Feedback
97146

98-
5.经典论文推荐:
147+
Language Agents as Optimizable Graphs (GPTSwarm)
99148

100-
(1)AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation
101-
(2)CAMEL: Communicative Agents for “Mind” Exploration of LLM Society
102-
(3)Improving Factuality and Reasoning in Language Models through Multi-Agent Debate
103-
(4)Should We Be Going MAD? A Look at Multi-Agent Debate
104-
(5)Reflexion: Language Agents with Verbal Reinforcement Learning
105-
(6)Self-Refine: Iterative Refinement with Self-Feedback
106-
(7)Language Agents as Optimizable Graphs (GPTSwarm)
107-
(8)Graph of Thoughts: Solving Elaborate Problems with LLMs
149+
Graph of Thoughts: Solving Elaborate Problems with LLMs

0 commit comments

Comments
 (0)