InfiniTensor · HX-1234 · Dec 26, 2025
diff --git a/HONOR_CODE.md b/HONOR_CODE.md
@@ -0,0 +1,71 @@
+# 2025秋季启元人工智能大赛诚信守则（Honor Code）
+
+
+本人作为2025秋季启元人工智能大赛（以下简称“比赛”）的参赛选手，郑重承诺严格遵守比赛规则及本诚信守则，秉持诚信、公正、廉洁的参赛原则，自觉维护比赛的公平性与严肃性。本人充分理解并认可，违反本准则将导致参赛资格被取消、比赛成绩作废等相应后果，且愿意承担由此产生的一切责任。
+
+## 一、参赛诚信承诺
+
+1. 本人保证所提交的赛题PR（Pull Request）中包含的算子实现代码及相关文档，均为本人（及参赛团队，如为团队参赛）在比赛期间独立完成或在明确标注参考来源的基础上进行开发，不存在任何欺诈、抄袭、作弊行为。
+
+2. 本人承诺主动、全面、真实地披露赛题实现过程中所有参考的外部资源，尤其是开源代码资源，不隐瞒任何可能影响比赛公平性的信息。
+
+3. 本人保证不采用任何不正当手段获取比赛优势，包括但不限于窃取其他参赛选手的代码成果、利用非比赛允许的工具或技术、与他人串通作弊等。
+
+## 二、参考资源说明
+
+本人确认已按比赛要求，将本次赛题实现过程中涉及的参考资源信息单独撰写至`REFERENCE.md`文件中，该文件将与本诚信守则一同作为PR附件提交。`REFERENCE.md`需根据实际参考情况，按以下要求完整填写，信息不完整或虚假填写将视为违反本准则：
+
+**情况1：无参考外部开源代码及核心实现思路**
+
+`REFERENCE.md`中需明确声明：“本次赛题提交的算子代码、核心算法逻辑及实现方案均为本人（及参赛团队）独立设计与开发，未参考任何外部开源项目、技术文档中的核心代码片段或实现思路，未接受任何第三方的技术指导或代码支持。”
+
+**情况2：有参考外部开源代码及相关资源**
+
+对每个参考资源提供以下信息陈述： 
+
+1. 参考开源项目/资源名称
+
+2. 参考资源链接（GitHub/Gitee/论文/技术文档等）
+
+3. 参考的具体内容（请明确说明参考的代码片段、算法逻辑、实现思路等，需标注对应资源的具体位置，如文件路径、代码行数等）
+
+4. 本人对参考内容的修改与优化说明：（请详细说明在参考基础上，本人所做的独立开发、修改、优化工作，体现自身技术贡献）
+
+5. 若是开源项目，提供参考资源的开源协议类型：（如MIT、Apache 2.0、GPL等）
+
+6. 其他需要补充说明的信息
+
+## 三、禁止行为确认
+
+本人明确知晓并承诺避免以下违反比赛公平性的行为，若存在以下任一情况，自愿接受比赛组委会的相应处罚：
+
+1. 未经授权复制、抄袭他人（包括其他参赛选手、开源项目、商业代码）的代码、算法或技术方案，且未进行明确标注；
+
+2. 隐瞒或虚假披露参考资源信息，包括遗漏重要参考来源、伪造参考内容说明等；
+
+3. 与其他参赛选手或第三方串通，进行代码共享、成果交换等违规协作；
+
+4. 利用比赛平台漏洞、技术缺陷或非比赛允许的工具获取不正当利益；
+
+5. 伪造比赛相关证明材料、提交虚假信息；
+
+6. 其他违反比赛规则及公序良俗的不诚信行为。
+
+## 四、责任与确认
+
+1. 本人充分理解，比赛组委会将对所有提交的PR进行代码溯源、参考信息核查等公平性审查，若发现本人存在违反本准则的行为，有权随时取消本人的参赛资格、作废比赛成绩，情节严重的将在比赛相关平台进行公示。
+
+2. 若因本人违反本准则导致比赛争议或第三方权益受损（如开源协议侵权等），本人将独立承担全部法律责任及相关损失，与比赛组委会无关。
+
+3. 本人确认已仔细阅读并完全理解本诚信守则的全部内容，自愿签署本准则，接受比赛组委会的监督与审查。
+
+## 五、签署信息
+
+参赛选手姓名（团队参赛需填写所有成员姓名）
+
+黄欣
+
+签署日期
+
+2025年12月26日
+
diff --git a/test/models/DeepSeek-R1/check_mla_correctness.py b/test/models/DeepSeek-R1/check_mla_correctness.py
@@ -0,0 +1,144 @@
+import torch
+import os
+import sys
+import numpy as np
+import safetensors.torch
+from transformers import AutoConfig
+from transformers.models.deepseek_v2.modeling_deepseek_v2 import DeepseekV2Attention, DeepseekV2RotaryEmbedding
+
+# 将当前目录加入路径
+sys.path.append(os.path.dirname(os.path.abspath(__file__)))
+
+try:
+    from test_mla_torch_golden import ManualDeepseekV2Attention
+except ImportError:
+    print("❌ Error: Could not import ManualDeepseekV2Attention from test_mla_torch_golden.py")
+    sys.exit(1)
+
+def calculate_metrics(out_hf, out_manual):
+    # 转为 float32 numpy 进行统计
+    h = out_hf.to(torch.float32).detach().cpu().numpy().flatten()
+    m = out_manual.to(torch.float32).detach().cpu().numpy().flatten()
+
+    # 1. 余弦相似度 (核心指标)
+    dot = np.dot(h, m)
+    norm_h = np.linalg.norm(h)
+    norm_m = np.linalg.norm(m)
+    # 防止分母为0
+    cos_sim = dot / (norm_h * norm_m + 1e-10)
+
+    # 2. 最大绝对误差 (在原始权重下，这个值会很大，仅供参考)
+    diff = np.abs(h - m)
+    max_diff = np.max(diff)
+
+    # 3. 相对误差 (过滤掉极小值)
+    mask = np.abs(h) > 1e-4
+    if np.sum(mask) > 0:
+        rel_err = diff[mask] / (np.abs(h[mask]) + 1e-10)
+        p99_rel_err = np.percentile(rel_err, 99) # 取99分位，排除异常点
+    else:
+        p99_rel_err = 0.0
+
+    return cos_sim, max_diff, p99_rel_err
+
+def check_correctness(model_path, device="cuda"):
+    print(f"\n{'='*80}")
+    print(f"MLA Verification (RAW WEIGHTS - NO NORMALIZATION)")
+    print(f"{'='*80}\n")
+
+    # 建议先用 float32 跑原始权重，因为 DeepSeek 的数值范围在 BF16 下容易溢出
+    # 如果你想测 BF16，就把这里改成 torch.bfloat16
+    dtype = torch.bfloat16 
+    print(f"Running dtype: {dtype}")
+
+    config = AutoConfig.from_pretrained(model_path)
+    config._attn_implementation = "eager"
+    config.rope_scaling = None 
+
+    print(">>> 1. Initializing Models...")
+    hf_model = DeepseekV2Attention(config=config, layer_idx=0).to(device=device, dtype=dtype)
+    hf_rope = DeepseekV2RotaryEmbedding(config=config).to(device=device, dtype=dtype)
+    manual_model = ManualDeepseekV2Attention(config).to(device=device, dtype=dtype)
+
+    # =======================================================
+    # [修改点] 加载原始权重，不进行归一化
+    # =======================================================
+    print(">>> 2. Loading RAW Weights (Warning: Values might be large)...")
+    loaded_tensors = {}
+    for fname in sorted(os.listdir(model_path)):
+        if fname.endswith(".safetensors"):
+            fpath = os.path.join(model_path, fname)
+            with safetensors.safe_open(fpath, framework="pt") as f:
+                for key in f.keys():
+                    if "self_attn." in key:
+                        sub_key = key.split("self_attn.")[1]
+                        raw = f.get_tensor(key)
+
+                        # [重要] 直接加载，不减均值除方差
+                        # 仅仅转为目标 dtype
+                        loaded_tensors[sub_key] = raw.to(dtype)
+
+    hf_model.load_state_dict(loaded_tensors, strict=False)
+    manual_model.load_state_dict(loaded_tensors, strict=False)
+    hf_model.eval()
+    manual_model.eval()
+
+    # 3. 构造输入
+    seq_len = 128
+    hidden_states = torch.randn(1, seq_len, config.hidden_size, device=device, dtype=dtype)
+    # 稍微把输入数值搞小一点，防止乘法后溢出 (DeepSeek 内部会有 RMSNorm，但输入小点安全)
+    hidden_states = hidden_states * 0.01 
+
+    position_ids = torch.arange(seq_len, device=device).unsqueeze(0)
+
+    print(">>> 3. Running Inference...")
+    with torch.no_grad():
+        # A. 运行 HF RoPE
+        rope_out_hf = hf_rope(hidden_states, position_ids)
+
+        # B. 数据桥接 (Data Bridging)
+        if isinstance(rope_out_hf, torch.Tensor):
+            r = rope_out_hf.real.float().squeeze()
+            i = rope_out_hf.imag.float().squeeze()
+            # Interleaved 布局对齐
+            cos_man = r.repeat_interleave(2, dim=-1).to(dtype)
+            sin_man = i.repeat_interleave(2, dim=-1).to(dtype)
+            manual_rope_input = (cos_man, sin_man)
+        elif isinstance(rope_out_hf, tuple):
+            manual_rope_input = (rope_out_hf[0].squeeze(), rope_out_hf[1].squeeze())
+        else:
+            raise ValueError(f"Unknown RoPE type: {type(rope_out_hf)}")
+
+        # C. 执行 Forward
+        hf_output = hf_model(hidden_states, position_embeddings=rope_out_hf)[0]
+        manual_output = manual_model(hidden_states, manual_rope_input)
+
+    # 4. 统计
+    print(">>> 4. Calculating Metrics...")
+
+    # 打印一些统计值，让你看看现在的数值范围有多大
+    print(f"   HF Output Mean: {hf_output.float().mean():.4f}, Max: {hf_output.abs().max():.4f}")
+
+    cos_sim, max_diff, p99_err = calculate_metrics(hf_output, manual_output)
+
+    print("\n" + "="*60)
+    print("VERIFICATION REPORT (RAW WEIGHTS)")
+    print("="*60)
+    print(f"Metric                 | Value       | Expectation")
+    print(f"-----------------------|-------------|-------------")
+    print(f"Cosine Similarity      | {cos_sim:.6f}    | > 0.99")
+    print(f"Max Absolute Diff      | {max_diff:.4f}      | (Variable)")
+    print("-" * 60)
+
+    if cos_sim > 0.99:
+        print("\n✅ PASS: Models align well on raw weights.")
+    else:
+        print("\n❌ FAIL: Alignment lost.")
+
+if __name__ == "__main__":
+    import argparse
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--model_path", required=True)
+    args = parser.parse_args()
+
+    check_correctness(args.model_path)