目標
建立一套持續性的觀察方法,理解市場目前對各家 AI 模型排名的共識——不只看單一 benchmark,而是分不同面向交叉驗證,避免被廠商自家測試或單一榜單誤導。
為什麼要做
- 廠商自家 benchmark(如 CursorBench、各家 model card)天然有利益相關。
- 單一 benchmark 容易被刷分(2026 Berkeley RDI 已證實主流 agent benchmark 全部可被 exploit)。
- 「跑分高」≠「實際用起來爽」,agent 體驗、coding 體驗、對話體驗是三件不同的事。
- 模型迭代極快,排名月月變動,需要持續追蹤而非一次性結論。
觀察面向 & 對應來源
1️⃣ 學術 / 自動化 Benchmark(任務完成率)
| 面向 |
來源 |
用途 |
| Agentic coding (修真實 bug) |
SWE-bench Verified |
最主流,但要小心刷分 |
| Terminal / 系統操作 |
Terminal-Bench Hard (Artificial Analysis) |
Stanford + Laude Institute |
| 通用 agent (多步驟 + 工具) |
GAIA |
Meta 提出的 466 任務 |
| Web 操作 |
WebArena / OSWorld |
真實網站 + 桌面 GUI |
| 多檔案 code edit |
Aider Polyglot |
Cursor / Cline / Devin 用戶適用 |
| 客服 / 對話 agent |
Tau-Bench |
多輪互動 + 工具 + 政策 |
2️⃣ 真人盲測偏好(體驗)
⚠️ LMArena 主要測單輪回答,不直接測 agent 體驗;agent 體驗目前最接近的代理指標是 Copilot Arena + WebDev Arena。
3️⃣ 真實生產流量(誰真的被用 + 怎麼花錢)
📌 觀察重點:花錢佔比 vs token 量佔比會說出兩種故事。
4️⃣ 綜合 / 成本對比
5️⃣ 質性訊號(雜訊大但反映真實感受)
- HN / Reddit (
r/LocalLLaMA, r/ClaudeAI) 模型發布後的討論
- dev.to / X 上的「real-world, not just benchmarks」實測文
- Cursor / GitHub Copilot blog 公布的內部 telemetry(accept rate、retry 次數)
觀察方法(如何「持續」)
建議節奏
- 每月一次:刷一輪上面 5 個面向,記錄當下 top 3,看變動。
- 每次主要模型發布(Opus / GPT / Gemini / Composer / Kimi 新版):3 天內掃一次社群質性訊號 + 一週內看 benchmark 跑分公佈。
- 每季度:寫一段「市場共識 vs 自己使用體驗」的差異筆記。
交叉驗證原則
- 至少看兩個獨立來源 才下結論——廠商榜 + 第三方榜 一定不能只信一個。
- 看「花錢 vs token 量」分離 才能看出 premium / 通用模型的真實定位。
- benchmark 分數差 <2% 基本上是 noise,不要在意排名。
- agent 任務看完成率而非分數——80% pass rate 跟 60% pass rate 是天壤之別。
待辦 / 後續可做
已知陷阱
- ⚠️ 廠商自家 benchmark(CursorBench、各家 model card 數字)天然偏向自己。
- ⚠️ Agent benchmark 已被證實全部可刷分(Berkeley RDI 2026)。
- ⚠️ OpenRouter 不代表企業市場、Vercel 不代表全部生態。
- ⚠️ 社群轉發截圖(如 Threads / 微博 / X)通常省略原始出處,看到先反查。
目標
建立一套持續性的觀察方法,理解市場目前對各家 AI 模型排名的共識——不只看單一 benchmark,而是分不同面向交叉驗證,避免被廠商自家測試或單一榜單誤導。
為什麼要做
觀察面向 & 對應來源
1️⃣ 學術 / 自動化 Benchmark(任務完成率)
2️⃣ 真人盲測偏好(體驗)
3️⃣ 真實生產流量(誰真的被用 + 怎麼花錢)
📌 觀察重點:花錢佔比 vs token 量佔比會說出兩種故事。
4️⃣ 綜合 / 成本對比
5️⃣ 質性訊號(雜訊大但反映真實感受)
r/LocalLLaMA,r/ClaudeAI) 模型發布後的討論觀察方法(如何「持續」)
建議節奏
交叉驗證原則
待辦 / 後續可做
model-rankings/資料夾,每月放一份 snapshot(手動或腳本)已知陷阱