行有餘力則以學文: 大型語言模型推理：中介步驟、微調、自洽聚合與檢索的實務與理論

2025年8月19日星期二

大型語言模型推理：中介步驟、微調、自洽聚合與檢索的實務與理論

講者與主題簡介：Denny Zo（Google DeepMind/前 Google Brain reasoning 團隊創辦人）介紹他對「推理」的明確定義、相關技術（chain-of-thought、self-consistency、in‑context learning 的數學基礎）與實務觀察，並分享團隊在提升 LLM 推理能力上的方法與洞見。

「推理」的定義：講者將「推理」嚴格定義為輸入到輸出的中間 token（intermediate tokens / intermediate steps）。也就是模型在最終答案前產生的逐步推導文字（chain-of-thought, COT）。舉例：last‑letter concatenation（取每個單字最後一個字母再串起來）— 在沒有中間步驟下模型直接輸出答案容易錯，若輸出逐步說明則更可靠。

理論基礎：與史丹佛的合作者證明：任何由布林電路（Boolean circuit）在大小 T 可解的問題，常數大小的 transformer 只要能產生 O(T) 個中介 token 即可解決。換言之，生成中間步驟對 transformer 的表現力至關重要。

解碼與排名問題：許多人誤以為預訓練模型不能推理；講者主張問題多在「解碼（decoding）」而非模型本體。預訓練模型的推理步驟其實已存在於輸出空間，但以貪婪解碼（greedy）往往找不到；觀察其他備選詞或用非貪婪抽樣可顯示出包含推理步驟的候選序列。

Chain‑of‑thought prompting 與 channel prompting：用範例或明示「請逐步解題」能改變模型的輸出分布，讓含推理過程的序列排在前面（因此更容易被選中）。「Let’s think step by step」等簡單提示在很多模型上效果驚人，但有時需要 task‑specific 範例才能更好。

監督微調（SFT）與其限制：收集人類標註的逐步解答後以最大概似微調模型（如 GSM8K 的工作）可以提升表現，但在泛化到較難或不同分布問題時常失效。單純擴大人類標註資料並不一定解決泛化問題。

自我生成資料與 RL/Finetuning：改用模型自身生成的逐步解答（再用驗證器選取正確解答）來 fine‑tune（self‑improve / self‑training / RLFT）是有效做法。講者強調驗證器（verifier）在訓練回路中非常重要：我們知道最終答案（可驗證任務）時，可以利用它挑出正確的推理路徑做為訓練目標。

機器學習視角：把優化目標明確化（定義 R 評分函數，如正確率、BLEU 等），然後最大化期望 R（需透過抽樣計算梯度）即可。沒有魔術，都是標準的 policy gradient / maximum expected reward 概念。

尺度與要放大什麼：對 fine‑tuning 類方法，重要的不只是模型參數數量，而是 COT 的長度（推理序列長度）與解碼時的抽樣次數；在某些理論與實驗下，足夠長的中介步驟可讓常數大小 transformer 解決可計算問題。

Emergence（出現行為）：人類式的逐步推理行為是在 token‑to‑token 的預測中 emergent 出來的，不必仰賴經典 AI 的窮舉式搜尋（雖然搜尋仍是一個可用工具或 plug‑in）。示例：Gemini 2.x 在沒有顯式搜尋的情況下，能生成長而有意義的推理過程並得出正確答案。

自洽（Self‑consistency）與邊緣化原理：正確答案的機率應該是對所有可能推理路徑機率的總和（marginalization）。實作上可用多次隨機抽樣生成多個完整解答，然後選出出現次數最多的最終答案（而非最頻繁的推理過程）。這個簡單作法在許多數學題（GSM8K 等）上能大幅提升正確率（相對改善甚大），並具良好校準性（self‑consistency 越高，正確率越高）。

Universal self‑consistency：當答案不是單一 token 或輸出多樣化時，可用擴展的方法（選最一致/最相容的回應）來判定最有可能的答案。

集成與跨模型聚合：讓不同模型獨立生成答案再由驗證器挑選，類似 ensemble / random forest 概念，也能提升穩定性（數學上與 self‑consistency 不完全相同但實作類似）。

檢索（Retrieval）與推理的結合：檢索（retrieval）能提供相關範例、公式或抽象原則，有時是解題關鍵（例如從相似問題或距離公式回推方法）。Deep retrieval（或 retrieval‑augmented prompting）與 reasoning 結合通常比純推理好。

實務總結與順序結論：有理據的結論為——有推理（COT）優於無推理；針對可驗證任務，RL‑finetuning（或 model‑generated data + verifier）通常優於單純 SFT；聚合（self‑consistency / ensembles）與檢索皆有助提升正確性，但會增加推理成本（推理時間、tokens）。

限制與未來方向：目前方法依賴可自動驗證的任務（有明確正確答案）；如何處理非可驗證任務（創作、主觀寫作、可讀性或協作性程式設計等）仍是挑戰。未來重點包括：超越單一可驗證答案的任務、把技術用到實際應用上、以及探索更好的一致性/聚合策略與檢索技巧。

Q&A 摘要（重點）：

信心（confidence）可用 token 機率或序列機率估計；在某些情況下 final‑token 機率跳升是可靠指標。
關於 search vs learning：講者認為學習（scale learning）是根本與可擴展的；搜尋可作為工具（tool use）整合進系統，但不必視為解法核心。
抽樣與貪婪策略差異：在不同情況下會有不同效果，分布如何在訓練中被塑形仍不完全清楚。
若答案是程式或複雜結構，需用專門 parser 或後處理來抽出正確答案；self‑consistency 在低信心情況非萬能。
對於未來就業與技能：短期看來模型在程式輔助上最有立即價值；但整體影響與可廣泛商業化的 killer apps 仍在演化中。

最後的箴言：講者引用 Richard Feynman 的精神——真相往往比你想的簡單。許多成功方法（chain‑of‑thought prompting、self‑consistency、model‑generated fine‑tuning、retrieval）其實概念簡單，但效果顯著；未來重點在於把這些簡單原理做得更穩健並應用於更多實務問題。