Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,8 @@ Multi-Agent System(多智能体系统)概览
1. 什么是 Multi-Agent System(多智能体系统, MAS)?

多智能体系统(MAS)指由多个相对自治的 智能体(agent) 组成、在共享环境中交互、协作或竞争以达成个体或群体目标的计算系统。
它关注的并非单个智能体的最优行为,而是 群体层面的组织、协调与涌现行为。
它关注的并非单个智能体的最优行为,而是群体层面的组织、协调与涌现行为。
注:涌现行为即为多智能体交互协作后出现的单个智能体无法完成的行为,如:鸟群都遵循一定的规则飞行最终形成了优雅的队形可以对抗气流,而这个队形预先没有被设计过
直观理解:可把 LLM 作为多个“角色”来 模拟团队/部门协作,共同完成任务。

2. 典型应用与问题类型
Expand All @@ -22,6 +23,7 @@ Multi-Agent System(多智能体系统)概览
研究方向示例:generation、translation、repair、judge 等。

3. 多智能体的核心概念

3.1 智能体(Agent)

在环境中 感知(Perception)—决策(Deliberation/Policy)—行动(Action) 的计算实体。
Expand All @@ -32,6 +34,13 @@ Multi-Agent System(多智能体系统)概览

智能体感知与行动的客体;可为 完全/部分可观测、确定/随机、静态/动态、连续/离散。

| 维度 | 定义 | 特征 / 要点 | 典型例子 | 对 agent 设计的影响 |
|---|---|---|---|---|
| 完全可观测 vs 部分可观测 | agent 是否能在每个时刻感知环境的全部状态 | 若为完全可观测,agent 可直接基于当前状态做决策;若为部分可观测,则存在隐藏信息,agent 可能需要内部记忆与不确定性推理 | 国际象棋是完全可观测;扑克(看不到对手手牌)是部分可观测 | 在部分可观测环境中,agent 通常需要维护 **belief state**(对真实状态的概率分布)或内部状态模型,使策略更加复杂 |
| 确定性 / 随机性(Deterministic vs Stochastic / Nondeterministic) | 在给定状态 + 动作的情况下,是否有确定的下一状态 /结果,还是有多种可能 /概率分布 | 确定性环境:动作 + 当前状态唯一决定下一状态;随机 / 非确定性环境:存在多种可能转移,有概率分布 | 棋类游戏(如国际象棋)通常近似确定性;现实中的机器人操作、交通系统常有随机性 | 在随机环境里,agent 的策略要考虑期望 / 分布 / 风险,比如用概率策略、强化学习、健壮性设计 |
| 静态 / 动态 | agent 在作出决策 / 行动期间,环境是否可能发生变化 | 静态:在 agent 决策期间环境保持不变;动态:环境可能在 agent 思考 /行动时自行演化 | 若两方交替下棋,则在当前 agent 决策期间环境静止;交通系统是动态的,其他车辆 /行人持续变化 | 在动态环境中,agent 需具备快速响应能力、实时规划、预测未来等特性,不能长时间停留在高代价计算 |
| 离散 / 连续 | 环境的状态、动作、时间等是否构成离散 / 可枚举集合,还是连续 / 实数值域 | 离散环境:状态 /动作 /时间都是可枚举或离散的;连续环境:这些量在实数域或者实数区间变化 | 棋盘游戏、格子世界、回合制游戏是离散的;机器人位置 /速度 /加速度、无人机控制是连续的 | 在连续环境中,agent 通常需要用函数逼近(神经网络、控制模型)、连续策略、微分方程或连续动作优化;在离散环境中可用枚举、搜索、离散 RL 等方法 |

3.3 交互(Interaction)

形式包括 通信、协商、竞争、合作、博弈 等。
Expand All @@ -40,11 +49,20 @@ Multi-Agent System(多智能体系统)概览

角色、层级、规范、协议与团队结构 的总和。

| 组成要素 | 含义 / 功能 | 常见设计方式 / 例子 | 需要考虑的问题 / 权衡 |
|:------:|:-----------|:----------------|:----------------|
| 角色(Roles) | 在组织里,每个 agent 扮演的功能定位与行为职责。角色抽象了行为接口与能力约束 | “Planner” 角色负责任务分解;“Executor” 角色负责执行;“Critic” 角色负责评估;“Communicator” 角色负责信息中转 | 职责要清晰,不要重叠太多,避免角色耦合过强;能力与资源分配要匹配 |
| 层级(Hierarchy) | 角色/agent 的上下级关系,指导控制、监督、指挥流向 | Manager/Worker 架构:高层 agent 做策略决策,低层 agent 做执行;多层嵌套(macro → meso → micro) | 层级能帮助控制复杂性、保持清晰指令流;但过多层级可能导致沟通瓶颈、延迟、中心故障 |
| 规范(Norms / Normative Rules) | 约定俗成或硬性规则,用来约束 agent 行为、协调冲突、确保安全 | 如“不得同时访问同一资源”、“优先响应紧急任务”、“不得跨角色越权” | 太松会混乱;太严会缺乏灵活性;需设计惩罚机制 / 合规检查机制 |
| 协议(Protocols / Interaction Protocols) | agent 之间如何通信、协商、交易、同步、谈判等的机制和约定 | 拍卖 (Auction)、契约网 (Contract Net)、谈判协议 (Negotiation Protocol)、共识协议 (Consensus) | 需要考虑性能(通信成本、延迟)、健壮性(异常处理、失败恢复)、表达能力(语义交互是否足够) |
| 团队结构(Team Structure / Coalitions / Grouping) | agent 如何被组织为子团队或协作小组,以及这些小组如何彼此协作 | 静态团队(固定组队)、动态团队(任务触发组队)、跨团队联盟 | 要适应任务需求与能力分布;动态结构增加灵活性但带来重组成本和协调开销 |

3.5 目标(Goals/Utility)

个体目标与全局社会福利可能 一致或冲突,涉及 机制设计。最终目的应指向 任务完成与效用最优。

4. 系统构成与典型架构

4.1 智能体内部架构

反射式/行为式(Reactive):如 subsumption(抑制/分层行为),响应快但规划能力弱。
Expand Down Expand Up @@ -98,6 +116,7 @@ Actor-Critic:如 MADDPG(集中式 Critic、分布式 Actor)。
关键挑战:信用分配、可扩展性、部分可观测、探索-利用平衡、通信带宽与延迟。

5. LLM 驱动的多智能体范式(Main Focus)

5.1 角色分工

Planner(计划)
Expand Down