以下為YouTube訪談/演講重點摘要,分段整理各則新聞與技術亮點。
1) DeepSeek 疑似洩漏下一代旗艦(可能為 V4)
- 非官方但具說服力的跡證來自 2026-01-20 在 GitHub 上對 Flash MLA 大量改動(114 個檔案),檔內出現一個新模型識別碼 "model1"(出現 28 次),且在多處跟現行 V3.2(V32)並列或被明確區別,暗示可能不是小幅升級而是新架構。
- 開發者發現的關鍵差異包括:KV cache 佈局改變(影響長序列效能與記憶檢索)、稀疏性(sparsity)處理不同(指向計算效率優化)、以及對 FP8 解碼的支援(為硬體與記憶體效率做工)。
- 這些變動與 DeepSeek 先前的研究方向(MHC 訓練法與生物啟發的 Engram 記憶模組)相呼應,外界推測 V4 可能整合這些研究成果;傳聞發布時程落在農曆新年(2 月中)附近,但公司尚未正式確認。
2) 廣告與工具速覽:Heightm 3D(Heidi 3D2)
- 這段影片包含贊助簡介:Heightm 3D2 強調生成的材質與細節內嵌於幾何結構(非貼圖式表面撲貼),可補全看不到的面(底部、內部)、降低 bake 光照影響,適用於 PBR、遊戲資產、3D 列印與原型工作流程,提供試用。
3) 中國/ZOO AI(GU AI)發布:GLM 4.7 Flash
- 定位:為可實際本地部署、強調推理與程式碼能力的輕量化選項(相對於大型 358B 類模型)。
- 架構與規格:宣稱約 31 億參數(31B),採 mixture-of-experts(MoE)設計(只在需要時啟用部分專家),支援英中雙語,設定為對話/聊天導向。
- 長上下文:支援到 128,000 tokens,並採標準介面與 chat 模板,方便整合現有工具。
- 基準與調校:官方與同類(如 Qwen 33B, GPT-OSS 20B 等)比較,宣稱在數學推理、長序列 benchmark 與編碼/agent 任務上具競爭力;預設採較高隨機度(temp 1.0, top-p 0.95),但針對精確任務會降溫與限制輸出長度;並建議在多回合 agent 任務啟用「preserved thinking mode」以保存內部推理。
- 生態:支援 VLLLM / SGLANG / Transformers 推理,已有 fine-tune 與量化轉換(Hugging Face 上 MLX 等)。
4) 日本:以身體訊號為基礎的情緒計算研究(MMLDA)
- 來源與期刊:由 Nara Institute 與大阪大學團隊發表(發表於 2025 年 12 月),基於「構成情緒理論」(constructed emotion)。
- 方法:提出多層次多模態潛在 Dirichlet 分配(MMLDA),屬於無監督/生成式模型,從視覺(影像/影片)、身體生理訊號(如心率)與語言描述三層資料中自動發現情緒類別,沒有事先貼標籤(非直接告訴模型何為「恐懼」或「喜悅」)。
- 實驗:29 名受試者觀看 60 張國際情緒影像系統(IAPS)圖片,同步記錄生理反應與口述描述;模型發現的類別與受試者自我報告達約 75% 的一致率,遠高於機率水準。
- 應用:可用於情緒機器人、情境感知助理、醫療或心理健康監測,尤其有助於理解難以用語言表達的情緒狀態(對發展障礙、失智等有潛在價值)。
5) Newscoder / News Research 發布:Newscoder 14B(競賽程式化 RL 訓練)
- 定位與基底:在 Qwen 3.14B(Qwen 314B)基礎上改良,專門針對最嚴苛的程式競賽測試(隱藏測資、嚴格時間與記憶限制)。
- 訓練法:使用強化學習(RL)在沙盒環境中執行模型產出的程式碼:通過所有隱藏測試則獲 +1 獎勵,超時 (>15s) 或超記憶 (>4GB) 或失敗則 -1,利用容器隔離執行並優先測試最難測例以節省資源。
- 成效:在 LiveCodeBench V6(454 題,時間窗 2024-08-01 到 2025-05-01)上,Newscoder 14B 的 pass@1(第一個答案即正確)達 67.87%;原始 Qwen 314B 為 60.79%,提升約 7.08 個百分點。
- 訓練資源與公開:用了 24,000 筆已驗證題目、48 張 NVIDIA B200 GPU 訓練 4 天;以 Apache 2.0 授權在 Hugging Face 開源釋出。
- 其他細節:試驗了多種 RL 目標與演算法變體(如 GRPO、DAPO、GSPO 等),並採漸進式長上下文訓練(先 32k、再 40k,評估時擴展到 ~81,920 tokens);若生成超出最大上下文,訓練上不直接懲罰(優勢設為 0),以避免模型學會「故意輸短答案」之類的作弊策略。
總結/觀察:
- 本週重點呈現兩條趨勢:一是底層工程與系統優化(如 KV cache、FP8、MoE、長上下文)正驅動模型從「只能做概念性演示」走向「可實際部署與可用的工具」;二是訓練方法多元化(例如以執行回饋的 RL 訓練、或結合生理訊號的無監督情緒建模),使得專業應用(編程競賽、情緒感知、長文檢索/代理)表現快速提升。

沒有留言:
張貼留言