持續追蹤：當下市場對 LLM / AI Agent 模型排名的共識

## 目標

建立一套**持續性的觀察方法**，理解市場目前對各家 AI 模型排名的共識——不只看單一 benchmark，而是分**不同面向**交叉驗證，避免被廠商自家測試或單一榜單誤導。

## 為什麼要做

- 廠商自家 benchmark（如 CursorBench、各家 model card）天然有利益相關。
- 單一 benchmark 容易被刷分（2026 Berkeley RDI 已證實主流 agent benchmark 全部可被 exploit）。
- 「跑分高」≠「實際用起來爽」，agent 體驗、coding 體驗、對話體驗是三件不同的事。
- 模型迭代極快，排名月月變動，需要**持續追蹤而非一次性結論**。

## 觀察面向 & 對應來源

### 1️⃣ 學術 / 自動化 Benchmark（任務完成率）

| 面向 | 來源 | 用途 |
|---|---|---|
| Agentic coding (修真實 bug) | [SWE-bench Verified](https://www.swebench.com/) | 最主流，但要小心刷分 |
| Terminal / 系統操作 | [Terminal-Bench Hard (Artificial Analysis)](https://artificialanalysis.ai/evaluations/terminalbench-hard) | Stanford + Laude Institute |
| 通用 agent (多步驟 + 工具) | GAIA | Meta 提出的 466 任務 |
| Web 操作 | WebArena / OSWorld | 真實網站 + 桌面 GUI |
| 多檔案 code edit | Aider Polyglot | Cursor / Cline / Devin 用戶適用 |
| 客服 / 對話 agent | Tau-Bench | 多輪互動 + 工具 + 政策 |

### 2️⃣ 真人盲測偏好（體驗）

| 面向 | 來源 |
|---|---|
| 通用對話 | [LMArena Chatbot Arena](https://lmarena.ai) |
| 寫網頁 / UI | [WebDev Arena](https://lmarena.ai/leaderboard/webdev) |
| IDE 內 code 補全 | [Copilot Arena (lmarena)](https://github.com/lmarena/copilot-arena) |
| 視覺 / 搜尋 | Vision Arena / Search Arena |

⚠️ LMArena 主要測**單輪回答**，不直接測 agent 體驗；agent 體驗目前最接近的代理指標是 **Copilot Arena + WebDev Arena**。

### 3️⃣ 真實生產流量（誰真的被用 + 怎麼花錢）

| 面向 | 來源 | 注意 |
|---|---|---|
| Indie dev / 開源 / agent 框架用量 | [OpenRouter Rankings](https://openrouter.ai/rankings) | 偏小團隊 + 開源模型 |
| Agent 框架熱度 (Cline, Roo Code…) | [OpenRouter App Rankings](https://openrouter.ai/apps) | 自願 attribution |
| 企業 / 前端生態的用量 vs 花費 | [Vercel AI Gateway Leaderboards](https://vercel.com/ai-gateway/leaderboards) | 偏 Next.js 生態 |
| 季度趨勢 + 解讀 | [Vercel AI Gateway Production Index](https://vercel.com/blog/ai-gateway-production-index) | 重 reasoning → Claude，輕量 → Gemini Flash |

📌 觀察重點：**花錢佔比 vs token 量佔比**會說出兩種故事。

### 4️⃣ 綜合 / 成本對比

| 來源 | 用途 |
|---|---|
| [Artificial Analysis](https://artificialanalysis.ai) | 多 benchmark 綜合 + 速度 + 成本三維對比 |
| llm-stats.com | 跨 arena 整合 |

### 5️⃣ 質性訊號（雜訊大但反映真實感受）

- HN / Reddit (`r/LocalLLaMA`, `r/ClaudeAI`) 模型發布後的討論
- dev.to / X 上的「real-world, not just benchmarks」實測文
- Cursor / GitHub Copilot blog 公布的內部 telemetry（accept rate、retry 次數）

## 觀察方法（如何「持續」）

### 建議節奏

- **每月一次**：刷一輪上面 5 個面向，記錄當下 top 3，看變動。
- **每次主要模型發布**（Opus / GPT / Gemini / Composer / Kimi 新版）：3 天內掃一次社群質性訊號 + 一週內看 benchmark 跑分公佈。
- **每季度**：寫一段「市場共識 vs 自己使用體驗」的差異筆記。

### 交叉驗證原則

1. **至少看兩個獨立來源** 才下結論——廠商榜 + 第三方榜 一定不能只信一個。
2. **看「花錢 vs token 量」分離** 才能看出 premium / 通用模型的真實定位。
3. **benchmark 分數差 <2%** 基本上是 noise，不要在意排名。
4. **agent 任務看完成率而非分數**——80% pass rate 跟 60% pass rate 是天壤之別。

## 待辦 / 後續可做

- [ ] 建立一個 `model-rankings/` 資料夾，每月放一份 snapshot（手動或腳本）
- [ ] 寫個小腳本拉 OpenRouter rankings JSON + LMArena 公開資料，自動 diff 跟上月差異
- [ ] 訂閱 Artificial Analysis / Vercel AI Gateway blog 的 RSS / 電子報
- [ ] 自己設計 1–2 個真實工作任務當「私人 benchmark」，每次新模型出來跑一次
- [ ] 整理一份「面向 → 該看哪個榜」的速查表（可從本 issue 提煉）

## 已知陷阱

- ⚠️ 廠商自家 benchmark（CursorBench、各家 model card 數字）天然偏向自己。
- ⚠️ Agent benchmark 已被證實全部可刷分（[Berkeley RDI 2026](https://rdi.berkeley.edu/blog/trustworthy-benchmarks-cont/)）。
- ⚠️ OpenRouter 不代表企業市場、Vercel 不代表全部生態。
- ⚠️ 社群轉發截圖（如 Threads / 微博 / X）通常省略原始出處，看到先反查。


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

持續追蹤：當下市場對 LLM / AI Agent 模型排名的共識 #4

目標

為什麼要做

觀察面向 & 對應來源

1️⃣ 學術 / 自動化 Benchmark（任務完成率）

2️⃣ 真人盲測偏好（體驗）

3️⃣ 真實生產流量（誰真的被用 + 怎麼花錢）

4️⃣ 綜合 / 成本對比

5️⃣ 質性訊號（雜訊大但反映真實感受）

觀察方法（如何「持續」）

建議節奏

交叉驗證原則

待辦 / 後續可做

已知陷阱

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

面向	來源	用途
Agentic coding (修真實 bug)	SWE-bench Verified	最主流，但要小心刷分
Terminal / 系統操作	Terminal-Bench Hard (Artificial Analysis)	Stanford + Laude Institute
通用 agent (多步驟 + 工具)	GAIA	Meta 提出的 466 任務
Web 操作	WebArena / OSWorld	真實網站 + 桌面 GUI
多檔案 code edit	Aider Polyglot	Cursor / Cline / Devin 用戶適用
客服 / 對話 agent	Tau-Bench	多輪互動 + 工具 + 政策

面向	來源
通用對話	LMArena Chatbot Arena
寫網頁 / UI	WebDev Arena
IDE 內 code 補全	Copilot Arena (lmarena)
視覺 / 搜尋	Vision Arena / Search Arena

面向	來源	注意
Indie dev / 開源 / agent 框架用量	OpenRouter Rankings	偏小團隊 + 開源模型
Agent 框架熱度 (Cline, Roo Code…)	OpenRouter App Rankings	自願 attribution
企業 / 前端生態的用量 vs 花費	Vercel AI Gateway Leaderboards	偏 Next.js 生態
季度趨勢 + 解讀	Vercel AI Gateway Production Index	重 reasoning → Claude，輕量 → Gemini Flash

來源	用途
Artificial Analysis	多 benchmark 綜合 + 速度 + 成本三維對比
llm-stats.com	跨 arena 整合

持續追蹤：當下市場對 LLM / AI Agent 模型排名的共識 #4

Description

目標

為什麼要做

觀察面向 & 對應來源

1️⃣ 學術 / 自動化 Benchmark（任務完成率）

2️⃣ 真人盲測偏好（體驗）

3️⃣ 真實生產流量（誰真的被用 + 怎麼花錢）

4️⃣ 綜合 / 成本對比

5️⃣ 質性訊號（雜訊大但反映真實感受）

觀察方法（如何「持續」）

建議節奏

交叉驗證原則

待辦 / 後續可做

已知陷阱

Metadata

Metadata

Assignees

Labels

Projects

Milestone

Relationships

Development

Issue actions