2026年2月9日 星期一

比較 Opus 4.6 與 GPT‑5.3 Codex:功能、測試與結論

這段影片主持人對比了 OpenAI 的 GPT‑5.3 Codex 與 Anthropic 的 Opus 4.6 兩款新程式碼/開發導向模型,並以多項實作任務與基準測試來觀察差異與優勢。

官方基準與規格: - 共同公開的程式碼基準為 TerminalBench 2.0:GPT‑5.3 Codex 得分較高(73.3 vs 65.4)。
- 另有 GDPVOL(專家領域問答)的測試:GPT‑5.3 在該測試與 GPT‑5.2 得分相同,而 Opus 對 GPT‑5.2 有勝出表現。
- 上下文窗口與 API:Opus Cloud 提供巨量 1,000,000 token 上下文(輸入超過 200k token 會有額外計價),輸出上限約 128k token,並有延續 Opus 4.5 的定價結構(影片中提到與舊版相同的收費機制)。GPT‑5.3 的雲端 API 當時尚未完全公開,預期會與 GPT‑5.2 類似(影片提及約 400k 的上下文窗口假設)。

實作任務與結果(一覽): 1) 前端 Landing Page 改版(同一 repo,前端設計 skill):Opus 4.6 做出更吸引、互動性佳的 UI(得分點);Codex 的輸出較單調、導航處理有不佳之處。結果:Opus 得分。
2) 簡化的時空(重力)模擬互動:兩者皆產生可操作的 3D/視覺模擬,效果各有特色,難分上下。結果:平手(各得一分)。
3) 一關 Angry‑Birds 類型瀏覽器遊戲:Opus 產出的版本比較可玩並具完整性,Codex 的成品表現較差(兩者都有缺陷但 Opus 優於 Codex)。結果:Opus 得分。
4) 專案從 Laravel(PHP) 遷移到 Next.js:兩個模型都完成遷移,Codex 用時很短(約 5 分鐘)而 Opus 花較久(約 20 分鐘);成品都可運行,整體上屬平手(Codex 在速度上有優勢)。
- 最終影片內人工計分:Opus 4.6 得 4 分,GPT‑5.3 Codex 得 2 分。

流程與資源使用觀察: - 在多個任務中比較 token 用量:Opus 因巨大上下文,在某些任務中使用較少相對比例的 token;Codex 在某些任務用 token 比例較高(因其上下文窗口較小或會重置計算方式)。
- Codex 在執行複雜任務(例如整個應用遷移)時速度很快且實作上較「果斷」;Opus 在 UI/前端設計與美感細節上通常表現較好,但其 UI 風格有時候會偏相近(如講者提到的斜體字等樣式傾向)。

總結觀點: - 兩款模型都非常強大,但各有專長:Opus 4.6 偏向前端設計與互動呈現優勢;GPT‑5.3 Codex 在執行速度與處理複雜工程任務(快速遷移、大量程式改寫)上有吸引力。
- 真正選擇哪個工具,仍取決於使用者的工作流程與需求;講者個人表示兩者都持續每天使用,並建議依實際任務嘗試以選擇最適合的模型。



沒有留言:

張貼留言