行有餘力則以學文: Language Models are Few-Shot Learners (GPT-3)

2026年4月14日星期二

Language Models are Few-Shot Learners (GPT-3) — 深度簡介

在自然語言處理（NLP）領域，過去幾年最大的突破之一就是透過大規模語言模型的預訓練（pre-training）再輔以針對特定任務的微調（fine-tuning）策略，成功提升了各種語言任務的表現。這類方法雖然模型架構多數是任務無關的（task-agnostic），但仍需為每個任務準備數千至數萬筆標註資料來進行微調，這帶來不小的資料獲取與調教成本。這與人類在處理新語言任務時，只需少量示範甚至純粹依靠指令即可快速掌握的能力，形成強烈對比。

「Language Models are Few-Shot Learners」這篇由 Brown et al. 所提出的論文，在 2020 年 NeurIPS 大會發表後即引起極大迴響，並獲頒 Outstanding Paper。該研究透過大幅放大語言模型的參數規模，探索「零-shot」、「單-shot」與「少-shot」學習能力，特別是少量示範下的任務泛化性。其核心展示了當模型達到一定的巨大規模時，無需額外微調，只透過純文本的任務描述與少量輸入示範，即可達到多項NLP任務的強勁表現。這種方法不僅降低了對任務專屬標註資料的依賴，也開啟語言模型新一波的應用模式。

研究背景與動機

傳統的 NLP 方法在多數情況下依賴專門設計的模型微調架構，並且需要大量標註數據。目前主流的做法包括 BERT、GPT-2 等模型，先在大規模語料上進行預訓練，取得一般語言理解能力，再針對特定任務微調以達成最佳表現。雖然取得了諸多突破，但缺點也很明顯：必須針對每個任務重新微調，且需要昂貴的標註資料。人類相比之下能快速從極少量的示範學習並解決新問題，甚至能單靠口頭指令執行新任務。這激發作者想了解：如果大幅增加模型規模，語言模型是否可以從少量示範中直接展現強大的任務適應能力？是否能不經微調，憑借語境中提供的例子理解新任務，且表現能夠接近傳統的微調模型？

核心方法與創新

論文的核心在於訓練一個超大規模的自回歸語言模型 GPT-3（Generative Pre-trained Transformer 3），具有 1750 億個參數，是之前語言模型規模的約十倍。GPT-3 採用純粹的 Transformer 解碼器架構，訓練資料涵蓋數兆字元的網路文本。重要的是，GPT-3 不進行任何針對訓練後任務的微調，而是直接使用「prompt-based learning」策略：在模型輸入中以純文字格式加入任務的簡短說明與示範輸入輸出範例（三種設定：zero-shot 沒有示範、one-shot 一個示範、few-shot 幾個示範），讓模型根據上下文推斷要完成的語言任務。

這種方式下，GPT-3 不需要梯度更新，訓練後的權重保持不變，其對各種新任務的適應純粹依賴於預訓練時自身學到的廣泛語言能力與推斷能力。這是和之前微調語言模型根本不同的學習模式。另外，GPT-3 在架構、訓練規模與資料規模上的極端擴大，也是能取得此結果的關鍵因素。研究同時進一步分析模型尺寸與學習效果的關係，呈現有明顯的規模回報（scaling law）。

主要實驗結果

論文在多個 NLP 任務與資料集上測試 GPT-3 的 few-shot 性能，實驗涵蓋填空題（Cloze Tasks）、機器翻譯、問答系統、常識推理及算術運算等。例如：

在自然語言推理、閱讀理解、CommonsenseQA 等標準測試集，GPT-3 多數時候在 few-shot 模式下能達到或接近早期微調最佳模型的成績。
對於需要現場推理的新穎任務，如將字母打亂後還原、在句子中正確使用新創詞匯、進行三位數加減法等，GPT-3 都展現了顯著能力，表明它在理解及推理方面遠超過過往的純機器學習模型。
zero-shot 與 one-shot 表現也令人驚艷，尤其是在規模最大的 GPT-3 上，相較小型模型而言表現大幅提升。
同時，作者指出 GPT-3 在部分資料集仍面臨挑戰，例如少量且高精度領域專業知識的問題，及因訓練資料中包含大量網路文本而導致的偏見及倫理問題。
此外，GPT-3 能生成人類難以分辨真偽的新聞文章文本，顯示其語言生成的自然度已達到非常高的水準。

對 AI 領域的深遠影響

GPT-3 發表後，立即引發 NLP 及更廣泛 AI 領域的巨大關注，帶來多方面的啟示：

從微調至提示學習（Prompt Learning）革命：GPT-3 用純文本提示設計取代微調，代表 NLP 任務未來可能更多依賴「零微調」甚至「少微調」的策略，降低數據標註需求與模型維護成本。
模型規模的威力：GPT-3 標誌著超大規模模型時代正式來臨，證明參數數量、訓練資料及計算資源的擴充可帶來突破性提升。而後續如 PaLM、GPT-4 等更大規模模型皆延續此趨勢。
零散文學習的可能性：人類少量學習能力的模擬邁出關鍵一步，讓 AI 系統能在定義清晰、示範有限的新場景下更靈活應用，提高自適應性與可擴展性。
應用實務與挑戰：GPT-3 的強大語言生成功能推動了聊天機器人、文本生成工具、CODE AI 助手等多樣應用，但隨之而來的倫理、偏見、濫用風險也引起社會廣泛討論，促使相關負責任 AI 研究加速展開。
跨領域啟示：雖然 GPT-3 主要聚焦語言，底層技術與規模化思路對視覺、語音等多模態領域同樣產生深遠影響，催生多模態大模型研究熱潮。

總結來說，這篇論文不僅建立了具突破性的少量學習基準，也深刻改變了人們對語言模型學習方式的認知。GPT-3 的問世標誌著「通用語言理解與生成模型」時代的開端，為未來探索更智能、更靈活且更接近人類學習模式的 AI 系統奠定了重要基礎。

論文資訊
📄 Language Models are Few-Shot Learners (GPT-3)
👥 Brown, Mann, Ryder, Subbiah, Kaplan et al.
🏆 NeurIPS 2020 · Outstanding Paper
🔗 arxiv.org/abs/2005.14165