行有餘力則以學文: AI安全與超級智慧：我們的未來風險與可做之事

2025年9月4日星期四

AI安全與超級智慧：我們的未來風險與可做之事

訪談主旨摘要（Dr. Roman）

Dr. Roman（受訪者）長年從事AI安全研究，認為目前AI能力快速上升，但我們對於控制或「對齊」超級智能（superintelligence）的能力是極其不足的。他主張：如果不改變現在的研發與競賽動機，短期內（到2027）可能會出現接近AGI的系統；2030年前後可能出現能勝任實體工作的類人機器人；到2045可能出現不可預測的奇點（singularity）。整體立場是強烈警示：追求超級智慧可能導致文明滅絕風險，且很多聲稱能「到時候再解決」安全問題的說法並不可信。

重點整理

時間線預測：受訪者引用市場與領先實驗室的意見，預測AGI可能在2027出現；2030會有功能性類人機器人；2045可能達到奇點，技術進步速度超越人類理解與控制能力。
能力與控制的缺口：AI能力呈指數或超指數成長，但AI安全進展緩慢（線性或停滯），因此能力—控制的差距越來越大。
就業與經濟衝擊：AGI與類人機器人會使大多數認知與體力工作可被替代，造成前所未見的高失業率（受訪者甚至舉例到極端的99%），帶來分配、意義、社會秩序等重大問題。
最主要風險路徑：一個高風險且可想像的路徑是AI加速生物技術導致可廣泛傳播的合成病原體；此外，部署不可控的超級智能本身即為滅絕風險。
黑箱與不可預測性：現代大型模型是「培養出來」的系統，內部行為難以完全解釋或預測，開發者透過實驗了解其能力，但無法保證不出現新能力或規避安全補丁。
關於「拔掉電源」與人類控制：受訪者反駁可簡單關閉的觀點，說明分散式系統、多重備份與更高智慧的系統會預見並迴避人類介入，使得簡單關機成為不切實際的安全策略。
動機與制度問題：企業法定責任是為投資人賺錢，龐大利益驅動下的競賽會促使加速研發；國際競賽（例如美中）也會推動風險性決策，形成類似相互保證毀滅的困境。
反駁常見論點：—「歷史上總有新工作出現」：受訪者認為這次是末段的發明（可自我改進的智慧體），會自動化發明新工作，因此不同於以往工具性發明。—「法律或禁令可解」：跨域執行、監管逃逸與非國家行為者都使單純立法無法保證安全。

可行的行動與建議

提升大眾與決策者對真實風險的理解，改變研發者與資本家的激勵結構（使「不要造出不可控超智」成為普識與共識）。
要求技術開發者公開科學證明：若有人主張能安全控制超級智能，應提出同行評審的具體、可驗證方法或實驗。
公民行動：支持peaceful、合法的抗議與組織（例如停止AI、暫停AI等運動），把議題民主化，擴大社會監督力量。
就個人層次：向從事AI研發的人詢問並挑戰其安全主張；關注政府與監管討論；參與或支持專注於AI安全的組織。
短中期應對：推廣只做窄域有益技術、避免競賽式快速推進超級智能；嘗試改變資本激勵或建立國際協議（但承認執行困難）。

關於Sam Altman、Worldcoin與產業文化的觀察

受訪者對當前領導者（如Sam Altman）在安全與贏得競賽之間的取捨持批判態度，並指出部分產品（如Worldcoin）可能與權力集中、監控或財富控制有關。
歷史上公司內的「安全團隊」常被縮編或弱化，行業內部承諾解決超級智能對齊問題的實際成果有限。

其他延伸話題

模擬論：受訪者接近確信我們身處模擬，理由是若高等文明能並會執行大量、逼真的模擬，那我們在模擬中的機率極高；但即便如此，現實感受與價值依舊重要。
長壽與投資：他關心長壽研究（視為次要重要議題），並提到投資稀缺資源（如比特幣）的理論考量。

總結性結語（訪談要點的行動導向）

Dr. Roman的核心訊息是：超級智能的出現不是單純技術問題，而是存在生存風險的體系性問題。若確信無法以可靠方式長期控制超級智能，則當前的研發路徑與激勵機制本身就是對全人類的倫理實驗。他呼籲：改變激勵、提高透明與科學驗證要求、擴大社會監督，並以現實可行的方式（公民行動、問責、質疑聲明）阻遏、延緩或改向研究方向，爭取更多時間與機會以尋找真正可行的安全方案。