本文總結一段關於AI硬體與能效轉變的訪談/演講重點,說明為何電力限制正在改變AI晶片設計,並以韓國創辦人白準(June Paik)創立的 Furiosa AI 及其 NPU(Warboy/RNGD)為案例。
背景問題:過去AI靠擴大模型、更多GPU與資料中心來擴張,但現在遇到能源瓶頸—例如美國各州(最明顯是德州)電網幾乎飽和,新資料中心申請被延後或駁回,延伸電網需數年,因此企業開始自建發電設施。延長或新增電力不是短期可行解,必須從「改變運算方式」著手。
核心觀點:當能源成為第一約束,勝出的不是最猛的通用加速器,而是以最低功耗完成相同工作的專用晶片(inference-first NPU)。
NPU 與設計重點:
- AI 推理運算由大量重複的乘加(MAC)構成。傳統CPU為通用分支邏輯,GPU為高度並行的繪圖導向架構,但兩者在大規模資料移動下功耗昂貴。
- NPU 採取資料流(dataflow)或 systolic array 結構,減少透過外部記憶體的頻繁讀寫,讓資料在晶片內循環重用,顯著降記憶體流量與能耗。
- Furiosa 的作法包括:大量小型MAC核心、巨量片上SRAM(將權重、激活值與中間張量保留在die上)、保守時脈(如約1 GHz)以用平行與資料重用換取吞吐量與低功耗、以及透過CoWoS-S互連將高速記憶體與處理器整合,採5nm製程量產。
實測與商業化:在 Hot Chips 與後續實際部署中,Furiosa 的晶片在推理場景顯示出對高階NVIDIA GPU明顯的每瓦效能優勢。例如展示功耗約150W vs GPU 350W;LG 的長期測試報告指出對比GPU約有2.5×的效能/瓦提升。這種能效差異在資料中心級別會放大,帶來冷卻與運營成本的大幅下降。
市場反應與競爭:Meta 曾有意以接近10億美元收購 Furiosa(遭拒);此外,像 Google(TPU)、Amazon(Tranium)、Cerebras、Groq(其硬體資產已被NVIDIA取得)等也在推動專用AI晶片。手機與筆電上的NPU(如Apple Neural Engine)已是成熟例子,Furiosa 把同樣概念放到資料中心。
結論與影響:能源為首要限制時代,AI 的下一階段不僅是誰能訓練最大模型,而是誰能以最低能源、最快速度在基礎設施中部署與運行模型。NPU 類的專用晶片很可能重塑「推理」層級(尤其是24/7運行的應用),但GPU在大規模訓練上仍會保有地位。未來成功的業者會把能量視為一級設計約束。

沒有留言:
張貼留言