chore(docs): sync doc metadata [skip ci]

Mira190 · github-actions[bot] · commit 7b5032f88671 · 2025-10-11T12:31:19.000Z
diff --git a/app/docs/ai/MoE/moe-update.md b/app/docs/ai/MoE/moe-update.md
@@ -1,9 +1,10 @@
 ---
-title: 'Theory of MoE'
+title: Theory of MoE
 description: ""
 date: "2025-10-05"
 tags:
   - tag-one
+docId: db3qwg25h6l0bh8f2sdabdqc
 ---
 
 # Theory of MoE
@@ -25,25 +26,23 @@ tags:
 
 ## **重要假设**：
 
-1. 这个文章只想给出闭式遗忘公式，所以直接简化成线性模型。$f(X)=X^⊤w,w∈R^d$  
+1. 这个文章只想给出闭式遗忘公式，所以直接简化成线性模型。$f(X)=X^⊤w,w∈R^d$
 2. 这个文章只讨论task-wised的路由方法，数据生成的时候每份数据只加入了一个信号数据，其余都是正态分布噪声。目的也是为了简化模型，然后在实际工程应用中，token会被隐式的送到各个experts，而不采用人为设定的方式。
 
 > ### 数据集生成规则
-> 在每一轮训练 $t \in [T]$，新的任务 $n_t$ 到来时，数据集 $\mathcal{D}_t = (X_t, y_t)$ 的生成步骤如下：
->
-> 1. **抽取任务真值向量**  
->    - 从任务池 $\mathcal{W} = \{w_1, \dots, w_N\}$ 中均匀采样一个真值向量 $w_{n_t}$，并设定 $w_{n_t}$ 为当前任务的 ground truth。  
 >
-> 2. **生成缩放系数**  
->    - 独立采样一个随机变量 $\beta_t \in (0, C)$，其中 $C = \mathcal{O}(1)$。  
->
-> 3. **构造输入特征矩阵 $X_t$**  
->    - 从 $s_t$ 个样本中生成：  
->      - 其中 **一个样本**定义为 $\beta_t v_{n_t}$，其中 $v_{n_t}$ 是任务 $n_t$ 的特征信号。  
->      - 其余 $s_t - 1$ 个样本来自正态分布：$\mathcal{N}(0, \sigma_t^2 I_d)$，其中 $\sigma_t \ge 0$ 是噪声水平。  
+> 在每一轮训练 $t \in [T]$，新的任务 $n_t$ 到来时，数据集 $\mathcal{D}_t = (X_t, y_t)$ 的生成步骤如下：
 >
-> 4. **生成输出标签 $y_t$**  
->    - 使用线性回归生成：  
+> 1. **抽取任务真值向量**
+>    - 从任务池 $\mathcal{W} = \{w_1, \dots, w_N\}$ 中均匀采样一个真值向量 $w_{n_t}$，并设定 $w_{n_t}$ 为当前任务的 ground truth。
+> 2. **生成缩放系数**
+>    - 独立采样一个随机变量 $\beta_t \in (0, C)$，其中 $C = \mathcal{O}(1)$。
+> 3. **构造输入特征矩阵 $X_t$**
+>    - 从 $s_t$ 个样本中生成：
+>      - 其中 **一个样本**定义为 $\beta_t v_{n_t}$，其中 $v_{n_t}$ 是任务 $n_t$ 的特征信号。
+>      - 其余 $s_t - 1$ 个样本来自正态分布：$\mathcal{N}(0, \sigma_t^2 I_d)$，其中 $\sigma_t \ge 0$ 是噪声水平。
+> 4. **生成输出标签 $y_t$**
+>    - 使用线性回归生成：
 >      $$
 >      y_t = X_t^\top w_{n_t}
 >      $$
@@ -54,148 +53,170 @@ tags:
 1. 这个文章只采用Top-1的experts指定方式
 
 ## 公式理论讲解：
+
 专家参数更新：
-	 当router命中某个experts时，其他experts保持不变，只更新命中的experts,其更新公式为：
+当router命中某个experts时，其他experts保持不变，只更新命中的experts,其更新公式为：
+
 $$
 w_t^{(m_t)} = w_{t-1}^{(m_t)} + X_t (X_t^\top X_t)^{-1}(y_t - X_t^\top w_{t-1}^{(m_t)})
 $$
+
 > ### 专家参数更新公式的由来
+>
 > **目标**：在第 $t$ 轮，专家 $m_t$ 要拟合任务数据集 $(X_t, y_t)$  
-> $$ \min_{w}\ \|X_t^\top w - y_t\|_2^2 $$
-> 
+> $$ \min\_{w}\ \|X_t^\top w - y_t\|\_2^2 $$
+>
 > **问题**：过参数化 ($s_t < d$) 时解不唯一，直接算最小二乘解会丢掉历史信息。  
-> 所以论文改成 **约束优化**：  
-> $$ 
-> \min_w \ \|w - w_{t-1}^{(m_t)}\|_2^2 \quad 
+> 所以论文改成 **约束优化**：
+>
+> $$
+> \min_w \ \|w - w_{t-1}^{(m_t)}\|_2^2 \quad
 > s.t.\ \ X_t^\top w = y_t
 > $$
-> 
+>
 > **解法**：用拉格朗日乘子或残差投影，可得更新：
+>
 > $$
 > w_t^{(m_t)} = w_{t-1}^{(m_t)} + X_t (X_t^\top X_t)^{-1}\,(y_t - X_t^\top w_{t-1}^{(m_t)})
 > $$
-> 
-> **解释**：  
-> - $(y_t - X_t^\top w_{t-1})$ = **残差** = 真实输出 - 旧预测  
-> - $X_t (X_t^\top X_t)^{-1}$ = 把残差投影回参数空间的修正项  
-> - 整个式子 = 在旧参数附近做一次最小二乘修正  
-> 
-> **性质**：  
-> - 保证 $X_t^\top w_t = y_t$ → 新参数能完美拟合当前任务  
+>
+> **解释**：
+>
+> - $(y_t - X_t^\top w_{t-1})$ = **残差** = 真实输出 - 旧预测
+> - $X_t (X_t^\top X_t)^{-1}$ = 把残差投影回参数空间的修正项
+> - 整个式子 = 在旧参数附近做一次最小二乘修正
+>
+> **性质**：
+>
+> - 保证 $X_t^\top w_t = y_t$ → 新参数能完美拟合当前任务
 > - 同时尽量靠近 $w_{t-1}$ → 避免遗忘过大
 
 辅助损失：(这里经常也被称作load balance)
+
 $$
 L_t^{\text{aux}}(\Theta_t, \mathcal{D}_t) = \alpha \cdot M \cdot \sum_{m \in [M]} f_t^{(m)} \cdot P_t^{(m)}
 $$
+
 > ### 辅助损失 (Auxiliary Loss)
-> **参数解释**  
-> - $\alpha$：权重系数，控制辅助损失在总 loss 中的比重  
-> - $M$：专家数量  
-> - $f_t^{(m)}$：专家 $m$ 在前 $t$ 轮中被选择的频率（历史使用情况）  
-> - $P_t^{(m)}$：router 在第 $t$ 轮给专家 $m$ 的平均分配概率  
->
-> **作用**  
-> - 惩罚历史上频繁被使用且当前仍高概率被选的专家  
-> - 鼓励 router 多利用未充分使用的专家  
+>
+> **参数解释**
+>
+> - $\alpha$：权重系数，控制辅助损失在总 loss 中的比重
+> - $M$：专家数量
+> - $f_t^{(m)}$：专家 $m$ 在前 $t$ 轮中被选择的频率（历史使用情况）
+> - $P_t^{(m)}$：router 在第 $t$ 轮给专家 $m$ 的平均分配概率
+>
+> **作用**
+>
+> - 惩罚历史上频繁被使用且当前仍高概率被选的专家
+> - 鼓励 router 多利用未充分使用的专家
 > - 实现 **负载均衡**，避免专家“过度/稀少”使用
 > - 这里尾部项理解起来非常简单，当某个专家m历史使用的次数越多，并且当前轮数依然分配到了较大的logits的时候这个损失项就会变得极大，从而抑制router只会对几个专家的偏好性。进而避免路由坍塌。
 
 局部性损失
+
 $$
 L_t^{\text{loc}}(\Theta_t, \mathcal{D}_t) = \sum_{m \in [M]} \pi_m(X_t,\Theta_t)\, \|w_t^{(m)} - w_{t-1}^{(m)}\|_2
 $$
 
 > ### 局部性损失 (Locality Loss)
 >
-> **参数解释**  
-> - $\pi_m(X_t,\Theta_t)$：router 给专家 $m$ 的概率 (softmax 输出)  
-> - $w_t^{(m)}$：专家 $m$ 在当前任务下的参数  
-> - $w_{t-1}^{(m)}$：专家 $m$ 在上一轮的参数  
+> **参数解释**
+>
+> - $\pi_m(X_t,\Theta_t)$：router 给专家 $m$ 的概率 (softmax 输出)
+> - $w_t^{(m)}$：专家 $m$ 在当前任务下的参数
+> - $w_{t-1}^{(m)}$：专家 $m$ 在上一轮的参数
 >
-> **作用**  
-> - 约束专家参数更新不能偏离历史太远  
-> - 让相似任务被路由到同一专家，从而减小 loss  
-> - 减少遗忘（新任务更新不会把旧知识完全覆盖）  
+> **作用**
+>
+> - 约束专家参数更新不能偏离历史太远
+> - 让相似任务被路由到同一专家，从而减小 loss
+> - 减少遗忘（新任务更新不会把旧知识完全覆盖）
 > - 提高专家的 **专精性**：每个专家逐渐固定在某类任务上
 
 训练误差（损失）:
+
 $$
 L_t^{\text{tr}}(w_t^{(m_t)}, \mathcal{D}_t) = \frac{1}{s_t}\,\|X_t^\top w_t^{(m_t)} - y_t\|_2^2
 $$
 
 > ### 训练损失 (Training Loss)
 >
-> **参数解释**  
-> - $s_t$：当前任务的数据样本数  
-> - $X_t$：特征矩阵  
-> - $y_t$：输出标签向量  
-> - $w_t^{(m_t)}$：在第 $t$ 轮被选中的专家的参数  
+> **参数解释**
+>
+> - $s_t$：当前任务的数据样本数
+> - $X_t$：特征矩阵
+> - $y_t$：输出标签向量
+> - $w_t^{(m_t)}$：在第 $t$ 轮被选中的专家的参数
 >
-> **作用**  
-> - 本质是最小二乘回归的均方误差 (MSE)  
-> - 让选中的专家拟合当前任务数据  
-> - 保证专家能捕捉任务的真实信号 (ground truth)  
+> **作用**
+>
+> - 本质是最小二乘回归的均方误差 (MSE)
+> - 让选中的专家拟合当前任务数据
+> - 保证专家能捕捉任务的真实信号 (ground truth)
 
 总损失：
+
 $$
 L_t^{\text{task}} = L_t^{\text{tr}} + L_t^{\text{loc}} + L_t^{\text{aux}}
 $$
+
 有了上述的总损失函数后，就可以在训练中，进行路由的参数更新了
 
-路由更新公式: 
+路由更新公式:
+
 $$
 \theta_{t+1}^{(m)} = \theta_t^{(m)} - \eta \cdot \nabla_{\theta^{(m)}} L_t^{\text{task}}(\Theta_t, w_t^{(m_t)}, \mathcal{D}_t), \quad \forall m \in [M]
 $$
+
 ### Tricks:
 
 #### Early Termination
 
 在持续学习 (CL) 的场景下，如果 gating network 一直持续更新，随着任务到达轮数的增加，不同专家的分配概率可能逐渐趋于一致，最终导致 **专家分化消失** 和 **错误路由**。为了解决这一问题，需要引入 **早停机制 (Early Termination)**
--	**基本思想**
-	在经过足够轮数的任务探索 ($T_1$ 轮) 后，MoE 的专家分配应当逐渐收敛。此时继续训练 gating network 不再带来收益，反而会导致过拟合和任务边界模糊。因此，需要在合适时机 **终止路由器参数 $\Theta_t$ 的更新**，保持专家划分的稳定性。
+
+- **基本思想**
+  在经过足够轮数的任务探索 ($T_1$ 轮) 后，MoE 的专家分配应当逐渐收敛。此时继续训练 gating network 不再带来收益，反而会导致过拟合和任务边界模糊。因此，需要在合适时机 **终止路由器参数 $\Theta_t$ 的更新**，保持专家划分的稳定性。
 
 - **收敛判据**
-	定义一个收敛标志 $I^{(m)}$ 来衡量专家 $m$ 是否收敛：
-	
-	$I^{(m)} = \big| h_m(X_t, \theta_t) - h_{m_t}(X_t, \theta_t) \big|$
-	
-	其中，$h_m(X_t,\theta_t)$ 表示专家 $m$ 在当前输入上的 gating 输出，$h_{m_t}(X_t,\theta_t)$ 表示被 router 实际选择的专家的输出。
-	- 若该差距 **大于阈值 $\Gamma$**，说明专家 $m$ 尚未收敛，需要继续更新 $\Theta_t$。
-	- 若该差距 **小于阈值 $\Gamma$**，则认为 gating network 已经收敛，停止对 $\Theta_t$ 的更新。
-	- 如此，则可以避免 router 在已收敛后仍然更新，导致专家划分被破坏。也能确保不同专家能够稳定服务于各自的任务簇。结合 $L^{loc}$ 和 $L^{aux}$ 的约束，早停机制使得系统能在 CL 环境下长期保持平衡和低遗忘。
+  定义一个收敛标志 $I^{(m)}$ 来衡量专家 $m$ 是否收敛：
+
+  $I^{(m)} = \big| h_m(X_t, \theta_t) - h_{m_t}(X_t, \theta_t) \big|$
+
+  其中，$h_m(X_t,\theta_t)$ 表示专家 $m$ 在当前输入上的 gating 输出，$h_{m_t}(X_t,\theta_t)$ 表示被 router 实际选择的专家的输出。
+  - 若该差距 **大于阈值 $\Gamma$**，说明专家 $m$ 尚未收敛，需要继续更新 $\Theta_t$。
+  - 若该差距 **小于阈值 $\Gamma$**，则认为 gating network 已经收敛，停止对 $\Theta_t$ 的更新。
+  - 如此，则可以避免 router 在已收敛后仍然更新，导致专家划分被破坏。也能确保不同专家能够稳定服务于各自的任务簇。结合 $L^{loc}$ 和 $L^{aux}$ 的约束，早停机制使得系统能在 CL 环境下长期保持平衡和低遗忘。
+
 #### 局部性损失的多种可能性
 
 - **参数连续性 (Parameter Locality)**
-        
+
 $$
  L^{loc}_{param} = \sum_{m \in [M]} \pi_m(X_t,\Theta_t)\,\|w_t^{(m)} - w_{t-1}^{(m)}\|_2
- $$
+$$
+
     - 在前章节使用的方法
     - 保证同一专家在相邻任务上的参数差异不要太大。
-        
+
+
 - **表示相似性 (Representation Locality)**
-    
-    - 可以直接对专家输出的表示（hidden states）施加约束。
-        
-    - 比如：
-$$
-L^{loc}_{repr} = \sum_{m \in [M]} \pi_m(X_t,\Theta_t)\,\|f_m(X_t) - f_m(X_{t-1})\|_2
-$$
-    - 让相似输入在同一专家上输出保持稳定。
-        
+      - 可以直接对专家输出的表示（hidden states）施加约束。
+
+      - 比如：
+  $$
+  L^{loc}_{repr} = \sum_{m \in [M]} \pi_m(X_t,\Theta_t)\,\|f_m(X_t) - f_m(X_{t-1})\|_2
+  $$
+      - 让相似输入在同一专家上输出保持稳定。
+
 - **路由概率连续性 (Routing Locality)**
-    
-    - 约束 router 的分配概率不要随任务跳跃太大。
-        
-    - 形式类似：
-$$
-L^{loc}_{route} = \sum_{m \in [M]} \|\pi_m(X_t,\Theta_t) - \pi_m(X_{t-1},\Theta_{t-1})\|_2
-$$
+      - 约束 router 的分配概率不要随任务跳跃太大。
+
+      - 形式类似：
+  $$
+  L^{loc}_{route} = \sum_{m \in [M]} \|\pi_m(X_t,\Theta_t) - \pi_m(X_{t-1},\Theta_{t-1})\|_2
+  $$
 - **语义/任务嵌入的相似性 (Task Embedding Locality)**
-    
-    - 如果能为任务构建一个 task embedding（比如通过元学习或对比学习），可以定义：
-        
-        - 相似任务 → 路由到同一专家
-            
-        - 不相似任务 → 尽量区分
+  - 如果能为任务构建一个 task embedding（比如通过元学习或对比学习），可以定义：
+    - 相似任务 → 路由到同一专家
+    - 不相似任务 → 尽量区分
diff --git a/generated/doc-contributors.json b/generated/doc-contributors.json
@@ -1,8 +1,8 @@
 {
   "repo": "InvolutionHell/involutionhell.github.io",
-  "generatedAt": "2025-10-11T02:29:00.345Z",
+  "generatedAt": "2025-10-11T12:31:18.710Z",
   "docsDir": "app/docs",
-  "totalDocs": 102,
+  "totalDocs": 103,
   "results": [
     {
       "docId": "ue27z7z95yzw3lhhfj7nit1c",
@@ -1018,6 +1018,23 @@
         }
       ]
     },
+    {
+      "docId": "db3qwg25h6l0bh8f2sdabdqc",
+      "path": "app/docs/ai/MoE/moe-update.md",
+      "contributorStats": {
+        "76551253": 1
+      },
+      "contributors": [
+        {
+          "githubId": "76551253",
+          "contributions": 1,
+          "lastContributedAt": "2025-10-06T00:30:18.000Z",
+          "login": "840691168",
+          "avatarUrl": "https://avatars.githubusercontent.com/u/76551253?v=4",
+          "htmlUrl": "https://github.com/840691168"
+        }
+      ]
+    },
     {
       "docId": "qaezsrj15sudk796r5otne36",
       "path": "app/docs/ai/Multi-agents-system-on-Code-Translation/code-translation-intro.mdx",