本次演講探討了如何判斷大型語言模型(LLM)是否在「說謊」,以及從機制性解讀(mechanistic interpretability)角度理解這類模型內部運作原理的進展與挑戰。
演講開頭以ChatGPT的記憶測試為例:當要求模型「忘記」特定詞句時,模型會聲稱已做到,但因詞句實際仍包含於上下文窗口內,該動作實際無法完成。透過持續追問,模型會坦承仍記得該詞句。這反映出我們可透過特定範例訓練模型表現出誠實和有用,但卻無法直接掌控模型的抽象概念或真實度行為,突顯LLM的可解釋性問題。
目前最具前景的研究方法之一是使用「稀疏自編碼器」(sparse autoencoder)來從模型內部提取特徵,這些特徵往往對應可被人理解的概念(例如貓、狗、Wi-Fi網路等),甚至較複雜的內部衝突概念。透過調整這些特徵的強度,可精細影響模型的回答傾向。
然而,根據研究人員Chris Olah的指出,目前我們僅能提取出模型所知概念的不到1%,其餘「隱藏特徵」如同「黑暗物質」般難以觀察。這意味著語言模型的知識宇宙遠超過我們現階段的解讀能力。
接著,演講介紹了Google的Gemma 2B語言模型的內部數據流運算過程,說明如何將文字詞彙轉換成向量,再經過26層疊加層層變換,最後分析該模型如何根據詞彙的殘差流(residual stream)來生成下一詞的概率分布。演講者展示透過修改某個特定神經元輸出值,進而控制模型在判斷如「Wikipedia的可靠性」時,是傾向信任還是懷疑的實驗效果。
但觀察到此神經元對文本最大激活的例子往往並非懷疑或不信任相關,而是與字母大寫或專有名詞有關,反映出單個神經元會呈現「多義性」現象(polyssemanticity),即同一神經元會對多種不同概念產生響應。這種多義性在語言模型中普遍存在,遠比視覺模型更為常見。
為說明多義性的來源,研究提出「重疊(superposition)」假說:模型學習的概念多於神經元數量,透過特定神經元組合共同表達一個概念。解決方案是嘗試用「稀疏自編碼器」找出這些神經元組合的模式,進而回復出單一明確的概念特徵。
稀疏自編碼器的運作機制為:從一層神經元輸出中,利用一個權重矩陣映射出多個潛在概念向量,並強制大部分概念值稀疏(接近零),僅讓少數特徵激活以重建原始神經元信號。透過訓練,該模型可學習將複雜的多重概念拆解成更易理解的特徵。
演講示範如何將Gemma模型第21層的輸出送入稀疏自編碼器,找到表達「懷疑」等概念的特徵,並透過控制該特徵強度成功讓模型生成懷疑Wikipedia可靠性的回應。類似方法已在多種語言模型(如Anthropic的Claude 3、OpenAI的GPT-4)上取得顯著成果,包括跨語言、跨模態的特徵提取,顯示該技術對解讀巨大語言模型的潛力。
儘管有此進展,演講也指出挑戰依然巨大:許多細微與罕見的特徵極難提取,高昂的計算成本與現在自編碼器只能專注於模型單位置的限制,讓交叉層的概念疊加難以完全解開。研究正開發新方法(如sparse cross layers)試圖打破此瓶頸。
演講總結,機制性解讀與稀疏自編碼器為大型語言模型的內部結構帶來前所未有的洞見,未來將持續推進,使我們或可更好理解、控制這些強大語言系統,然而模型能力可能仍持續超越我們理解的速度。

沒有留言:
張貼留言