行有餘力則以學文: 比較 Opus 4.6 與 GPT‑5.3 Codex：功能、測試與結論

2026年2月9日星期一

比較 Opus 4.6 與 GPT‑5.3 Codex：功能、測試與結論

這段影片主持人對比了 OpenAI 的 GPT‑5.3 Codex 與 Anthropic 的 Opus 4.6 兩款新程式碼/開發導向模型，並以多項實作任務與基準測試來觀察差異與優勢。

官方基準與規格： - 共同公開的程式碼基準為 TerminalBench 2.0：GPT‑5.3 Codex 得分較高（73.3 vs 65.4）。
- 另有 GDPVOL（專家領域問答）的測試：GPT‑5.3 在該測試與 GPT‑5.2 得分相同，而 Opus 對 GPT‑5.2 有勝出表現。
- 上下文窗口與 API：Opus Cloud 提供巨量 1,000,000 token 上下文（輸入超過 200k token 會有額外計價），輸出上限約 128k token，並有延續 Opus 4.5 的定價結構（影片中提到與舊版相同的收費機制）。GPT‑5.3 的雲端 API 當時尚未完全公開，預期會與 GPT‑5.2 類似（影片提及約 400k 的上下文窗口假設）。

實作任務與結果（一覽）： 1) 前端 Landing Page 改版（同一 repo，前端設計 skill）：Opus 4.6 做出更吸引、互動性佳的 UI（得分點）；Codex 的輸出較單調、導航處理有不佳之處。結果：Opus 得分。
2) 簡化的時空（重力）模擬互動：兩者皆產生可操作的 3D/視覺模擬，效果各有特色，難分上下。結果：平手（各得一分）。
3) 一關 Angry‑Birds 類型瀏覽器遊戲：Opus 產出的版本比較可玩並具完整性，Codex 的成品表現較差（兩者都有缺陷但 Opus 優於 Codex）。結果：Opus 得分。
4) 專案從 Laravel(PHP) 遷移到 Next.js：兩個模型都完成遷移，Codex 用時很短（約 5 分鐘）而 Opus 花較久（約 20 分鐘）；成品都可運行，整體上屬平手（Codex 在速度上有優勢）。
- 最終影片內人工計分：Opus 4.6 得 4 分，GPT‑5.3 Codex 得 2 分。

流程與資源使用觀察： - 在多個任務中比較 token 用量：Opus 因巨大上下文，在某些任務中使用較少相對比例的 token；Codex 在某些任務用 token 比例較高（因其上下文窗口較小或會重置計算方式）。
- Codex 在執行複雜任務（例如整個應用遷移）時速度很快且實作上較「果斷」；Opus 在 UI/前端設計與美感細節上通常表現較好，但其 UI 風格有時候會偏相近（如講者提到的斜體字等樣式傾向）。

總結觀點： - 兩款模型都非常強大，但各有專長：Opus 4.6 偏向前端設計與互動呈現優勢；GPT‑5.3 Codex 在執行速度與處理複雜工程任務（快速遷移、大量程式改寫）上有吸引力。
- 真正選擇哪個工具，仍取決於使用者的工作流程與需求；講者個人表示兩者都持續每天使用，並建議依實際任務嘗試以選擇最適合的模型。