近年來,隨著大型語言模型(Large Language Models,LLMs)的蓬勃發展,研究社群中「新興能力」(Emergent Abilities)這一現象逐漸得到熱烈關注。這類能力指的是當模型規模提升到某一門檻後,模型突然展現出在較小規模下完全不具備的技能,例如複雜推理、抽象理解或跨領域知識整合等。傳統觀點認為,這些新興能力似乎存在著「閾值效應」,且其產生不可預測,代表隨著模型擴大,能力的提升不再單調而是出現飛躍式的質變。本次在 NeurIPS 2023 獲得優秀論文獎的 Schaeffer、Miranda 與 Koyejo 等人提出了一個截然不同且深思熟慮的觀點:這些新興能力可能只是「幻象」,源自於研究者在用以衡量模型表現的「指標設計」而非模型本質行為的根本變化。
研究背景與動機
大型語言模型的能力與規模之間究竟有怎樣的關聯,成為近幾年 AI 領域的熱議焦點。先前的諸多研究報告指出,隨著模型參數從數億增加至數百億或更高級別,模型在某些任務上並非線性改進,而是出現突如其來的質變,類似「臨界點」的現象。這帶來兩大疑問:第一,這種所謂的「新興能力」模式是否真實反映了模型內部的學習機制改變?第二,為什麼這些能力的出現不可預測且非常陡峭?這些現象若難以解釋,則不僅挑戰現有模型分析方法,也阻礙對大型模型設計和理解的深入發展。
基於此,作者團隊提出了一個簡練假設:模型能力進展本質上是連續且可預測的,所謂突變般的新興能力,實際上是因為任務表現的評估指標選擇問題,尤其是採用了非線性、非連續或離散化的性能量化標準,造成看似「忽然爆發」的新興表現。
核心方法與創新
論文首先從數學模型層面建立理論架構,探討指標的數學特性如何影響性能曲線的形態。作者指出,若使用線性或連續的性能指標,模型的能力隨規模增大呈現平滑且可解釋的遞增趨勢;反之,使用非線性或離散跳躍式的指標,則容易在某些規模點產生劇烈變化,形成「新興能力」錯覺。
為驗證此理論,論文設計三組互補實驗:
- 指標選擇的直接實驗測試:作者利用 InstructGPT 和 GPT-3 家族模型,在系列被指出具新興能力的任務上,迭代調整性能指標(如分數轉換、門檻設定等),觀察新興能力是否仍然存在。結果發現,當指標變得更加連續和平滑時,那些突兀的能力出現點明顯消失,性能曲線變得連續且可預測。
- BIG-Bench 數據的元分析:該數據集涵蓋眾多測試任務,作者整合過去文獻中標榜的 Emergent Abilities,分析指標類型和模型規模之間的關係。結果再次肯定指標選擇對判定「新興能力」的影響,非線性指標更易刻畫出突變現象。
- 跨領域視覺任務檢驗:為突破語言模型範疇,作者將相同指標效應檢測架構應用於多種深度視覺網絡及多樣化視覺任務。甚至在過去未被報導過的任務中僅透過改變指標,即產生了前所未有的「新興能力」假象,進一步強化了指標陷阱的廣泛性與普遍性。
主要實驗結果
核心發現是「新興能力」並非模型在某規模點突然增強內涵能力的真實反映,而是來自於量化表現的非線性指標造成的錯覺。具體而言:
- 改變評估指標後,原本報告中的明顯跳躍性質消失,性能指標變化變得平滑且可用簡單函數良好擬合。
- 對 BIG-Bench 數據集中多任務的元分析顯示,當排除非線性指標影響,模型性能隨規模的提升呈現穩定遞增趨勢,降低了以往文獻中的「不可預測性」。
- 在視覺領域的測試證明該現象跨模態存在,印證新興能力現象並非語言模型獨有或模型架構特有。
此外,透過嚴謹的統計分析和多種模型尺寸的實驗設計,論文有效排除了統計噪聲或資料不足等其他解釋因素,強化了「指標陷阱」理論的說服力。
對 AI 領域的深遠影響
此篇獲獎論文從根本上挑戰了當前大型語言模型能力發展的主流敘述,尤其對理解規模與能力之間關係提供了重要的新視角。過去研究往往假設「新興能力」是模型計算力和架構突破帶來的自然產物,然而本研究表明研究者必須審慎檢視評估指標的設計,避免被「指標幻象」誤導。
這份工作對未來AI模型評估的意義重大:
- 指標設計的嚴謹性:促使社群重新規劃性能指標,避免非線性跳躍令研究結果失真,提升模型能力測試的科學性與可重現性。
- 模型發展節奏的重新理解:暗示隨著模型規模擴大,能力提升可能是穩健且連續的,這有助於改善模型可預測性的分析,利於資源配置與模型設計決策。
- 跨領域知識應用:指標陷阱不僅存在語言模型,在視覺甚至其他深度學習領域同樣適用,提醒研究者全方位思考指標對技術發展敘述的潛在誤導。
- 促進理論研究:激發對大型模型內部機制更深入的理論探討,而非過度依賴表面性能變化做解讀,推動 AI 領域邁向更高層次的科學理解。
總結來說,Schaeffer 等人的《Are Emergent Abilities of Large Language Models a Mirage?》不僅釐清了「新興能力」現象的本質,提供更嚴謹合理的分析框架,也為 AI 領域的評估方法論帶來根本性反思。隨著模型規模和應用場景持續擴張,理解和建立可靠的性能指標體系,將對 AI 模型的設計與部署產生深遠而持久的影響。
論文資訊
📄 Are Emergent Abilities of Large Language Models a Mirage?
👥 Schaeffer, Miranda, Koyejo
🏆 NeurIPS 2023 · Outstanding Paper
🔗 arxiv.org/abs/2304.15004
