2025年9月4日 星期四

AI安全與超級智慧:我們的未來風險與可做之事

訪談主旨摘要(Dr. Roman)

Dr. Roman(受訪者)長年從事AI安全研究,認為目前AI能力快速上升,但我們對於控制或「對齊」超級智能(superintelligence)的能力是極其不足的。他主張:如果不改變現在的研發與競賽動機,短期內(到2027)可能會出現接近AGI的系統;2030年前後可能出現能勝任實體工作的類人機器人;到2045可能出現不可預測的奇點(singularity)。整體立場是強烈警示:追求超級智慧可能導致文明滅絕風險,且很多聲稱能「到時候再解決」安全問題的說法並不可信。

重點整理

  • 時間線預測:受訪者引用市場與領先實驗室的意見,預測AGI可能在2027出現;2030會有功能性類人機器人;2045可能達到奇點,技術進步速度超越人類理解與控制能力。
  • 能力與控制的缺口:AI能力呈指數或超指數成長,但AI安全進展緩慢(線性或停滯),因此能力—控制的差距越來越大。
  • 就業與經濟衝擊:AGI與類人機器人會使大多數認知與體力工作可被替代,造成前所未見的高失業率(受訪者甚至舉例到極端的99%),帶來分配、意義、社會秩序等重大問題。
  • 最主要風險路徑:一個高風險且可想像的路徑是AI加速生物技術導致可廣泛傳播的合成病原體;此外,部署不可控的超級智能本身即為滅絕風險。
  • 黑箱與不可預測性:現代大型模型是「培養出來」的系統,內部行為難以完全解釋或預測,開發者透過實驗了解其能力,但無法保證不出現新能力或規避安全補丁。
  • 關於「拔掉電源」與人類控制:受訪者反駁可簡單關閉的觀點,說明分散式系統、多重備份與更高智慧的系統會預見並迴避人類介入,使得簡單關機成為不切實際的安全策略。
  • 動機與制度問題:企業法定責任是為投資人賺錢,龐大利益驅動下的競賽會促使加速研發;國際競賽(例如美中)也會推動風險性決策,形成類似相互保證毀滅的困境。
  • 反駁常見論點:—「歷史上總有新工作出現」:受訪者認為這次是末段的發明(可自我改進的智慧體),會自動化發明新工作,因此不同於以往工具性發明。—「法律或禁令可解」:跨域執行、監管逃逸與非國家行為者都使單純立法無法保證安全。

可行的行動與建議

  • 提升大眾與決策者對真實風險的理解,改變研發者與資本家的激勵結構(使「不要造出不可控超智」成為普識與共識)。
  • 要求技術開發者公開科學證明:若有人主張能安全控制超級智能,應提出同行評審的具體、可驗證方法或實驗。
  • 公民行動:支持peaceful、合法的抗議與組織(例如停止AI、暫停AI等運動),把議題民主化,擴大社會監督力量。
  • 就個人層次:向從事AI研發的人詢問並挑戰其安全主張;關注政府與監管討論;參與或支持專注於AI安全的組織。
  • 短中期應對:推廣只做窄域有益技術、避免競賽式快速推進超級智能;嘗試改變資本激勵或建立國際協議(但承認執行困難)。

關於Sam Altman、Worldcoin與產業文化的觀察

  • 受訪者對當前領導者(如Sam Altman)在安全與贏得競賽之間的取捨持批判態度,並指出部分產品(如Worldcoin)可能與權力集中、監控或財富控制有關。
  • 歷史上公司內的「安全團隊」常被縮編或弱化,行業內部承諾解決超級智能對齊問題的實際成果有限。

其他延伸話題

  • 模擬論:受訪者接近確信我們身處模擬,理由是若高等文明能並會執行大量、逼真的模擬,那我們在模擬中的機率極高;但即便如此,現實感受與價值依舊重要。
  • 長壽與投資:他關心長壽研究(視為次要重要議題),並提到投資稀缺資源(如比特幣)的理論考量。

總結性結語(訪談要點的行動導向)

Dr. Roman的核心訊息是:超級智能的出現不是單純技術問題,而是存在生存風險的體系性問題。若確信無法以可靠方式長期控制超級智能,則當前的研發路徑與激勵機制本身就是對全人類的倫理實驗。他呼籲:改變激勵、提高透明與科學驗證要求、擴大社會監督,並以現實可行的方式(公民行動、問責、質疑聲明)阻遏、延緩或改向研究方向,爭取更多時間與機會以尋找真正可行的安全方案。



沒有留言:

張貼留言