在自然語言處理(NLP)領域,過去幾年以預訓練(pre-training)加微調(fine-tuning)的模型架構已經取得重大突破。典型流程是先在大規模語料上預訓練一個語言模型,再針對特定任務設計數萬筆以上的標註資料進行微調,使模型在該任務上得到良好表現。然而,這種方式存在明顯限制:首先,準備龐大的標註資料費時費力,且難以快速適應新任務;其次,模型微調需要額外的計算資源和工程工作。相較之下,人類能夠在只接收少數示範或簡單指令的情況下,就學會並執行新語言任務,展現出強大的少量樣本學習(few-shot learning)能力。
本篇由 Brown 等人發表於 NeurIPS 2020 並榮獲 Outstanding Paper 的論文《Language Models are Few-Shot Learners(GPT-3)》聚焦於推翻過去少樣本學習效果不佳的刻板印象。他們展示了,將語言模型規模大幅提升至 1750 億參數(是先前最大非稀疏模型的 10 倍)後,不僅能維持多領域的預訓練知識,還可以以純文字互動的方式,無需反向傳播調參,透過簡單示範或指令即可完成新任務,達成驚人的少樣本學習成效。
研究背景與動機
自 2018 年 Transformer 架構問世後,預訓練語言模型如 BERT、GPT 系列成為 NLP 主要技術基石。然而,這些模型通常需要在大規模標註資料上微調才能達成任務目標。少樣本學習或零樣本學習的能力相當有限,導致模型在面對新任務或者資源稀缺環境時表現不佳。作者團隊認為,提升模型參數規模或許可以帶來定性上的改變,使模型本身具備更強的知識表達及推理能力。這正對應人類語言學習的特質:少量示範即可快速適應多種語言任務。
因此,本文提出了一個超大規模的自回歸語言模型 GPT-3,旨在探討「純粹透過輸入一些示範(few-shot)、單一指令(one-shot)或甚至零示範(zero-shot)」的方式,模型是否能在無需微調的情況下,達到或超越以往需微調模型的任務表現。
核心方法與技術創新
GPT-3 是基於 Transformer 架構的自回歸語言模型,採用類似 GPT-2 的預訓練流程,但將模型參數從 15 億暴增至 1750 億,並使用同樣具規模的互聯網文本進行無監督預訓練。此規模的拓展為 NLP 帶來了諸多新挑戰,包括訓練效率、內存管理及模型分布式部署等,而作者團隊巧妙利用混合精度訓練、模型並行及資料並行等先進技術克服困難。
不同於傳統的微調方式,GPT-3 不會透過梯度下降更新參數。任務輸入包含:「任務說明 + 幾個示範範例 + 要求模型完成的測試實例」,皆以文字方式作為模型的 prompt。這種方式稱為 prompt-based learning,是 GPT-3 少樣本學習策略的關鍵。在此情境下,模型依靠先前大量的語言知識及上下文推理,自行解析任務需求並產生對應回答。
主要實驗結果
論文在多種標準 NLP 基準進行測試,包括翻譯、問答、完形填空(cloze)、推理任務(例如文字解碼、使用新詞造句)與數字運算等。結果顯示:
- 少樣本學習成效顯著提升:GPT-3 在絕大多數任務中,無需微調便能逼近甚至超越以往微調模型的表現,尤其在翻譯及問答任務中表現尤為亮眼。
- 多樣任務適應能力:對於需要即時推理或領域適應的任務,如在新詞彙上下文中使用該詞、三位數加減法等,GPT-3 能依據示範快速理解規則並完成任務。
- 零樣本與單示範能力:即使只給予任務說明或單一範例,GPT-3 表現依然維持高度競爭力,代表強大的零樣本與單示範泛化能力。
- 部分限制與挑戰:GPT-3 在某些數據集表現不佳,尤其是在需要複雜邏輯推理或深度理解的任務中。此外,由於大量來自網路的非結構化資料,模型在某些任務存在訓練數據汙染或偏差問題。
- 生成文本質量優異:GPT-3 產生的新聞文章片段,經過人類評審辨識,人類很難區分它們與真實人類撰寫的文章,凸顯了其自然語言生成能力的突破。
對 AI 領域的深遠影響
GPT-3 的成功不僅是模型規模的勝利,更象徵著語言模型方法論上的革命。它證明了通過大規模預訓練,模型本身可以內隱地學會多種語言任務的解決策略,在無需額外微調的前提下進行高效轉移學習。這種「少樣本學習即用」的模式,有望極大降低 NLP 工程的門檻,促進快速原型開發與多領域應用落地。
此外,GPT-3 的強大生成能力對文本自動產生、機器人對話、輔助寫作、內容創作等場景產生深遠影響,推動人工智慧朝向更強通用智能(Artificial General Intelligence, AGI)的方向前進。然而,巨大模型體量帶來的資源消耗、潛在偏見與錯誤生成內容的倫理問題同樣嚴峻,促進了 AI 安全性與公平性的討論,成為業界與學界關注焦點。
總結而言,GPT-3 論文代表了 NLP 領域的一大里程碑:從過去必須大量數據與微調的模式,躍升到透過海量參數與語言理解能力的綜合培養,直接以少量示範達成多任務適應的革命性突破。這使得研究人員與工程師可以重新思考語言模型的開發策略,將重心從設計複雜特定任務架構,轉向如何更有效地挖掘大模型的潛力與泛化能力。未來的多模態、跨語言與跨領域 AI 系統,將有賴於類似 GPT-3 的「大模型+prompt」框架,推動人類與機器的自然交互邁向新紀元。
論文資訊
📄 Language Models are Few-Shot Learners (GPT-3)
👥 Brown, Mann, Ryder, Subbiah, Kaplan et al.
🏆 NeurIPS 2020 · Outstanding Paper
🔗 arxiv.org/abs/2005.14165

沒有留言:
張貼留言