行有餘力則以學文: 解析大型語言模型（LLM）神經網路中超疊加現象與多義神經元

2026年3月31日星期二

本次演講內容主要介紹大型語言模型（LLM）的運作機制，並深入探討神經網路內部的超疊加（superposition）現象與多義神經元（polysemantic neurons）對模型解釋性的影響。

課程前置與專案組隊說明

講師提醒學生若未修畢先備課程或未通過資格測驗，應儘速聯繫安排補救。針對研究專案，將提供多個研究點子，並用共享試算表讓學生自選或提案新點子組隊，促進合作。

講者簡述了LLM的架構，特別是Decoder-only Transformer模型的工作流程，包括：

Token嵌入：將字串拆分成子詞（tokens），並轉換為向量表示。
多頭注意力機制（Multi-head Attention）：依序建立上下文依賴表示，並利用因果注意力(causal attention)確保推理時不會窺探未來token。
前饋神經網路層（Feed Forward Network）：利用非線性映射擴展並壓縮向量，增強模型擬合能力。
殘差連接與層正規化（Residual Connections & Layer Norm）：保持訊號穩定與信息流暢通。
位置編碼（Positional Encoding）：透過RoPE等機制讓模型理解token在序列中的相對位置。
最後透過投影至詞彙大小的維度並經softmax，產生下一token的機率分布，以帶有隨機性的Top-p採樣產生下一輸出。

早期解釋方法嘗試觀察神經元在不同輸入文本中的激活值分布，期望能將某些維度對應至特定的語義特徵（如電影角色、法律文本等）。然而，實際上多數神經元為多義神經元，會對多種無關特徵同時激活，導致解釋變得困難，此現象稱為「干擾」（interference）。

由於模型維度有限，但希望同時表示大量語言特徵，LLM透過「超疊加」現象在有限維度內「壓縮」多重、稀疏的特徵表示。換言之：多於維度的特徵被同時碼入相同空間中，造成神經元表示多義。

講師舉了一個「五維輸入壓縮至兩維」的簡單線性神經網路實驗模型說明超疊加：

此現象強調LLM的密集向量實際是在模擬一個更高維、稀疏的特徵空間，為後續研究模型解釋性及特徵解碼提供重要思路。

總結而言，本次講座闡述了大型語言模型中深層次的結構理解與解釋困境，尤其是多義神經元與超疊加對模型表徵與可解釋性帶來的挑戰，提供機制可解釋性研究的起點及重要基礎理論。