本次演講內容主要介紹大型語言模型(LLM)的運作機制,並深入探討神經網路內部的超疊加(superposition)現象與多義神經元(polysemantic neurons)對模型解釋性的影響。
課程前置與專案組隊說明
講師提醒學生若未修畢先備課程或未通過資格測驗,應儘速聯繫安排補救。針對研究專案,將提供多個研究點子,並用共享試算表讓學生自選或提案新點子組隊,促進合作。
LLM解構基礎
講者簡述了LLM的架構,特別是Decoder-only Transformer模型的工作流程,包括:
- Token嵌入:將字串拆分成子詞(tokens),並轉換為向量表示。
- 多頭注意力機制(Multi-head Attention):依序建立上下文依賴表示,並利用因果注意力(causal attention)確保推理時不會窺探未來token。
- 前饋神經網路層(Feed Forward Network):利用非線性映射擴展並壓縮向量,增強模型擬合能力。
- 殘差連接與層正規化(Residual Connections & Layer Norm):保持訊號穩定與信息流暢通。
- 位置編碼(Positional Encoding):透過RoPE等機制讓模型理解token在序列中的相對位置。
- 最後透過投影至詞彙大小的維度並經softmax,產生下一token的機率分布,以帶有隨機性的Top-p採樣產生下一輸出。
神經元激活分析與多義性問題
早期解釋方法嘗試觀察神經元在不同輸入文本中的激活值分布,期望能將某些維度對應至特定的語義特徵(如電影角色、法律文本等)。然而,實際上多數神經元為多義神經元,會對多種無關特徵同時激活,導致解釋變得困難,此現象稱為「干擾」(interference)。
超疊加(Superposition)理論
由於模型維度有限,但希望同時表示大量語言特徵,LLM透過「超疊加」現象在有限維度內「壓縮」多重、稀疏的特徵表示。換言之:多於維度的特徵被同時碼入相同空間中,造成神經元表示多義。
講師舉了一個「五維輸入壓縮至兩維」的簡單線性神經網路實驗模型說明超疊加:
- 若輸入向量稀疏(多維度為零),模型能成功用低維表示重構稀疏的高維向量,即發生超疊加,且學習將多個特徵方向重疊表示。
- 若向量密集,模型採用類似PCA方式表示,無超疊加,特徵方向間皆正交。
此現象強調LLM的密集向量實際是在模擬一個更高維、稀疏的特徵空間,為後續研究模型解釋性及特徵解碼提供重要思路。
互動問答精華整理
- 不同序列長度與位置編碼會影響相同token在不同位置的特徵激活。
- 目前學界尚無統一定義「特徵(feature)」為何,不同論文視角不一:向量空間的一維維度或向量方向皆有可能。
- 增加模型維度不一定會降低多義性,因為模型往往會利用更大空間同時表示更多特徵,干擾仍然存在。
- 探究稀疏性對不同頻率特徵的影響也是未來研究方向,例如高頻詞與低頻專有名詞的特徵表達。
總結而言,本次講座闡述了大型語言模型中深層次的結構理解與解釋困境,尤其是多義神經元與超疊加對模型表徵與可解釋性帶來的挑戰,提供機制可解釋性研究的起點及重要基礎理論。

沒有留言:
張貼留言