Skip to content

持續追蹤:當下市場對 LLM / AI Agent 模型排名的共識 #4

@atomchung

Description

@atomchung

目標

建立一套持續性的觀察方法,理解市場目前對各家 AI 模型排名的共識——不只看單一 benchmark,而是分不同面向交叉驗證,避免被廠商自家測試或單一榜單誤導。

為什麼要做

  • 廠商自家 benchmark(如 CursorBench、各家 model card)天然有利益相關。
  • 單一 benchmark 容易被刷分(2026 Berkeley RDI 已證實主流 agent benchmark 全部可被 exploit)。
  • 「跑分高」≠「實際用起來爽」,agent 體驗、coding 體驗、對話體驗是三件不同的事。
  • 模型迭代極快,排名月月變動,需要持續追蹤而非一次性結論

觀察面向 & 對應來源

1️⃣ 學術 / 自動化 Benchmark(任務完成率)

面向 來源 用途
Agentic coding (修真實 bug) SWE-bench Verified 最主流,但要小心刷分
Terminal / 系統操作 Terminal-Bench Hard (Artificial Analysis) Stanford + Laude Institute
通用 agent (多步驟 + 工具) GAIA Meta 提出的 466 任務
Web 操作 WebArena / OSWorld 真實網站 + 桌面 GUI
多檔案 code edit Aider Polyglot Cursor / Cline / Devin 用戶適用
客服 / 對話 agent Tau-Bench 多輪互動 + 工具 + 政策

2️⃣ 真人盲測偏好(體驗)

面向 來源
通用對話 LMArena Chatbot Arena
寫網頁 / UI WebDev Arena
IDE 內 code 補全 Copilot Arena (lmarena)
視覺 / 搜尋 Vision Arena / Search Arena

⚠️ LMArena 主要測單輪回答,不直接測 agent 體驗;agent 體驗目前最接近的代理指標是 Copilot Arena + WebDev Arena

3️⃣ 真實生產流量(誰真的被用 + 怎麼花錢)

面向 來源 注意
Indie dev / 開源 / agent 框架用量 OpenRouter Rankings 偏小團隊 + 開源模型
Agent 框架熱度 (Cline, Roo Code…) OpenRouter App Rankings 自願 attribution
企業 / 前端生態的用量 vs 花費 Vercel AI Gateway Leaderboards 偏 Next.js 生態
季度趨勢 + 解讀 Vercel AI Gateway Production Index 重 reasoning → Claude,輕量 → Gemini Flash

📌 觀察重點:花錢佔比 vs token 量佔比會說出兩種故事。

4️⃣ 綜合 / 成本對比

來源 用途
Artificial Analysis 多 benchmark 綜合 + 速度 + 成本三維對比
llm-stats.com 跨 arena 整合

5️⃣ 質性訊號(雜訊大但反映真實感受)

  • HN / Reddit (r/LocalLLaMA, r/ClaudeAI) 模型發布後的討論
  • dev.to / X 上的「real-world, not just benchmarks」實測文
  • Cursor / GitHub Copilot blog 公布的內部 telemetry(accept rate、retry 次數)

觀察方法(如何「持續」)

建議節奏

  • 每月一次:刷一輪上面 5 個面向,記錄當下 top 3,看變動。
  • 每次主要模型發布(Opus / GPT / Gemini / Composer / Kimi 新版):3 天內掃一次社群質性訊號 + 一週內看 benchmark 跑分公佈。
  • 每季度:寫一段「市場共識 vs 自己使用體驗」的差異筆記。

交叉驗證原則

  1. 至少看兩個獨立來源 才下結論——廠商榜 + 第三方榜 一定不能只信一個。
  2. 看「花錢 vs token 量」分離 才能看出 premium / 通用模型的真實定位。
  3. benchmark 分數差 <2% 基本上是 noise,不要在意排名。
  4. agent 任務看完成率而非分數——80% pass rate 跟 60% pass rate 是天壤之別。

待辦 / 後續可做

  • 建立一個 model-rankings/ 資料夾,每月放一份 snapshot(手動或腳本)
  • 寫個小腳本拉 OpenRouter rankings JSON + LMArena 公開資料,自動 diff 跟上月差異
  • 訂閱 Artificial Analysis / Vercel AI Gateway blog 的 RSS / 電子報
  • 自己設計 1–2 個真實工作任務當「私人 benchmark」,每次新模型出來跑一次
  • 整理一份「面向 → 該看哪個榜」的速查表(可從本 issue 提煉)

已知陷阱

  • ⚠️ 廠商自家 benchmark(CursorBench、各家 model card 數字)天然偏向自己。
  • ⚠️ Agent benchmark 已被證實全部可刷分(Berkeley RDI 2026)。
  • ⚠️ OpenRouter 不代表企業市場、Vercel 不代表全部生態。
  • ⚠️ 社群轉發截圖(如 Threads / 微博 / X)通常省略原始出處,看到先反查。

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions