講者與主題簡介:Denny Zo(Google DeepMind/前 Google Brain reasoning 團隊創辦人)介紹他對「推理」的明確定義、相關技術(chain-of-thought、self-consistency、in‑context learning 的數學基礎)與實務觀察,並分享團隊在提升 LLM 推理能力上的方法與洞見。
「推理」的定義:講者將「推理」嚴格定義為輸入到輸出的中間 token(intermediate tokens / intermediate steps)。也就是模型在最終答案前產生的逐步推導文字(chain-of-thought, COT)。舉例:last‑letter concatenation(取每個單字最後一個字母再串起來)— 在沒有中間步驟下模型直接輸出答案容易錯,若輸出逐步說明則更可靠。
理論基礎:與史丹佛的合作者證明:任何由布林電路(Boolean circuit)在大小 T 可解的問題,常數大小的 transformer 只要能產生 O(T) 個中介 token 即可解決。換言之,生成中間步驟對 transformer 的表現力至關重要。
解碼與排名問題:許多人誤以為預訓練模型不能推理;講者主張問題多在「解碼(decoding)」而非模型本體。預訓練模型的推理步驟其實已存在於輸出空間,但以貪婪解碼(greedy)往往找不到;觀察其他備選詞或用非貪婪抽樣可顯示出包含推理步驟的候選序列。
Chain‑of‑thought prompting 與 channel prompting:用範例或明示「請逐步解題」能改變模型的輸出分布,讓含推理過程的序列排在前面(因此更容易被選中)。「Let’s think step by step」等簡單提示在很多模型上效果驚人,但有時需要 task‑specific 範例才能更好。
監督微調(SFT)與其限制:收集人類標註的逐步解答後以最大概似微調模型(如 GSM8K 的工作)可以提升表現,但在泛化到較難或不同分布問題時常失效。單純擴大人類標註資料並不一定解決泛化問題。
自我生成資料與 RL/Finetuning:改用模型自身生成的逐步解答(再用驗證器選取正確解答)來 fine‑tune(self‑improve / self‑training / RLFT)是有效做法。講者強調驗證器(verifier)在訓練回路中非常重要:我們知道最終答案(可驗證任務)時,可以利用它挑出正確的推理路徑做為訓練目標。
機器學習視角:把優化目標明確化(定義 R 評分函數,如正確率、BLEU 等),然後最大化期望 R(需透過抽樣計算梯度)即可。沒有魔術,都是標準的 policy gradient / maximum expected reward 概念。
尺度與要放大什麼:對 fine‑tuning 類方法,重要的不只是模型參數數量,而是 COT 的長度(推理序列長度)與解碼時的抽樣次數;在某些理論與實驗下,足夠長的中介步驟可讓常數大小 transformer 解決可計算問題。
Emergence(出現行為):人類式的逐步推理行為是在 token‑to‑token 的預測中 emergent 出來的,不必仰賴經典 AI 的窮舉式搜尋(雖然搜尋仍是一個可用工具或 plug‑in)。示例:Gemini 2.x 在沒有顯式搜尋的情況下,能生成長而有意義的推理過程並得出正確答案。
自洽(Self‑consistency)與邊緣化原理:正確答案的機率應該是對所有可能推理路徑機率的總和(marginalization)。實作上可用多次隨機抽樣生成多個完整解答,然後選出出現次數最多的最終答案(而非最頻繁的推理過程)。這個簡單作法在許多數學題(GSM8K 等)上能大幅提升正確率(相對改善甚大),並具良好校準性(self‑consistency 越高,正確率越高)。
Universal self‑consistency:當答案不是單一 token 或輸出多樣化時,可用擴展的方法(選最一致/最相容的回應)來判定最有可能的答案。
集成與跨模型聚合:讓不同模型獨立生成答案再由驗證器挑選,類似 ensemble / random forest 概念,也能提升穩定性(數學上與 self‑consistency 不完全相同但實作類似)。
檢索(Retrieval)與推理的結合:檢索(retrieval)能提供相關範例、公式或抽象原則,有時是解題關鍵(例如從相似問題或距離公式回推方法)。Deep retrieval(或 retrieval‑augmented prompting)與 reasoning 結合通常比純推理好。
實務總結與順序結論:有理據的結論為——有推理(COT)優於無推理;針對可驗證任務,RL‑finetuning(或 model‑generated data + verifier)通常優於單純 SFT;聚合(self‑consistency / ensembles)與檢索皆有助提升正確性,但會增加推理成本(推理時間、tokens)。
限制與未來方向:目前方法依賴可自動驗證的任務(有明確正確答案);如何處理非可驗證任務(創作、主觀寫作、可讀性或協作性程式設計等)仍是挑戰。未來重點包括:超越單一可驗證答案的任務、把技術用到實際應用上、以及探索更好的一致性/聚合策略與檢索技巧。
Q&A 摘要(重點):
- 信心(confidence)可用 token 機率或序列機率估計;在某些情況下 final‑token 機率跳升是可靠指標。
- 關於 search vs learning:講者認為學習(scale learning)是根本與可擴展的;搜尋可作為工具(tool use)整合進系統,但不必視為解法核心。
- 抽樣與貪婪策略差異:在不同情況下會有不同效果,分布如何在訓練中被塑形仍不完全清楚。
- 若答案是程式或複雜結構,需用專門 parser 或後處理來抽出正確答案;self‑consistency 在低信心情況非萬能。
- 對於未來就業與技能:短期看來模型在程式輔助上最有立即價值;但整體影響與可廣泛商業化的 killer apps 仍在演化中。
最後的箴言:講者引用 Richard Feynman 的精神——真相往往比你想的簡單。許多成功方法(chain‑of‑thought prompting、self‑consistency、model‑generated fine‑tuning、retrieval)其實概念簡單,但效果顯著;未來重點在於把這些簡單原理做得更穩健並應用於更多實務問題。
沒有留言:
張貼留言