行有餘力則以學文: Conformal Prediction as Bayesian Quadrature

2026年5月20日星期三

Conformal Prediction as Bayesian Quadrature

隨著機器學習系統越來越多地應用於關鍵決策領域，例如醫療診斷、金融風險評估及自動駕駛等，如何可信且準確地評估預測模型的不確定性成為一項迫切的挑戰。若系統能夠在推論時給出明確且牢靠的不確定性估計，不僅能強化決策的安全性，也能提升使用者信心。過去數十年，基於分佈自由（distribution-free）假設的「共形預測（conformal prediction）」技術因其不依賴模型內部結構且提供嚴格的頻率保證（frequentist guarantees）而廣受矚目。這類方法能夠在預測階段以有限先驗假設下，對黑箱模型可能犯的錯誤率給出明確界限，確保實務部署時的風險可控。

然而，Snell 與 Griffiths 在 ICML 2025 上發表的論文《Conformal Prediction as Bayesian Quadrature》批判性地指出，經典共形預測方法嚴格採用頻率主義統計觀點，其保證雖然分布自由但卻相對保守且缺乏彈性，難以直接反映使用者對特定問題的先驗知識與信念。此外，頻率保證往往只能給出錯誤事件的上界，無法完整揭示潛在觀察結果範圍及其相應機率分佈，這在高度非平穩或異質性的實務場景中限制了其適用性與解釋力。

核心方法與創新

為突破頻率保證框架的限制，作者提出將共形預測問題重新詮釋為一種 貝葉斯正交積分（Bayesian Quadrature,BQ） 問題。貝葉斯正交積分是基於貝葉斯推論對積分結果建立概率模型的方法，通常利用高斯過程（Gaussian Process）來刻畫被積函數的不確定性，並進行不確定度的量化。

本論文的核心創新在於：從貝葉斯視角重新定義共形預測的不確定估計機制，即將頻率保證中的「保證上界」轉換為對預測損失（loss）分布的全概率刻畫。作者引入一種基於貝葉斯正交積分的框架，利用已有校準集（calibration set）上的損失函數評估數據，將損失評估轉化為對一個隨機函數（代表損失）的貝葉斯積分推斷過程。透過這樣的建模方式，可以不僅獲得損失的預期值，更能得到損失分布的完整後驗分布，實現更細膩且可解釋的不確定性量化。

除此之外，作者指出將傳統頻率保證與貝葉斯不確定性量化結合的優勢：

更豐富的不確定性表達：不再僅止於給出一個錯誤率的界限，而能完整描述損失可能的變異範圍與可信區間。
融入先驗知識的彈性：透過貝葉斯推斷可方便地將先驗分布納入，根據具體應用場景調整估計結果，更貼近真實需求。
連結頻率與貝葉斯方法：有效結合兩大統計哲學，揭示頻率保證的內在限制，並提出更實用且可解釋的替代方案。

主要實驗結果

為驗證新方法的實用性與效能，作者在多種標準基準分類與回歸任務中進行實驗，並與傳統共形預測方法做比較。實驗結果顯示：

本方法在保持良好覆蓋率（coverage）與誤差控制的同時，能提供更緊湊且靈活的置信區間，避免過於保守的估計。
在損失分布的後驗推斷上，該方法能夠呈現出多樣化風險模式，幫助使用者了解可能的損失變化範圍，而傳統共形方法僅能產生單一錯誤率界限。
對於先驗知識強烈的不確定性設定場景，貝葉斯方法提供針對不同先驗假設的敏感度分析，展現出更高適應性與解釋力。

對 AI 領域的深遠影響

《Conformal Prediction as Bayesian Quadrature》一文對不確定性量化領域產生了重要啟示。首先，它推動了共形預測社群從嚴格的頻率主義保證向更綜合、融入貝葉斯不確定性框架的方向發展，挑戰傳統在分布自由預測中的局限與保守性。這種方法不僅理論上更具彈性與可解釋性，也更加符合實務中對風險管理的期待。

其次，將貝葉斯正交積分與共形預測結合，為高階不確定性預測問題開啟了全新研究路徑—如何基於有限校準數據，確立更豐富的風險分布並融合先驗知識。這對自動駕駛、醫療輔助系統、金融交易等對風險敏感的 AI 應用場景具有深遠影響，提供了更強的安全保障與決策支持。

最後，該研究展示了跨統計哲學間的創新融合潛力，鼓勵未來研究將頻率主義與貝葉斯法觀點結合應用，推動機器學習在不確定性量化上的理論完善與技術突破。這對 AI 安全性與可靠性的提升，有積極的促進作用。

總結而言，這篇論文不僅以嶄新的視角重新定義了共形預測，使其不確定性表達邁入新的層次，也為 AI 領域中高信賴度預測模型的構建提供了具有實務價值的理論基石，值得廣大 AI 研究者與工程師深入學習與應用。

論文資訊
📄 Conformal Prediction as Bayesian Quadrature
👥 Snell, Griffiths
🏆 ICML 2025 · Outstanding Paper
🔗 arxiv.org/abs/2502.13228