這段YouTube訪談比較了市面上四款最受歡迎的消費者AI聊天機器人,包括ChatGPT、Google Gemini、Perplexity與Grock,並從多方面進行詳細測試與評比,最後得出結論。
主要測試內容包括:
1. 問題解決能力:像是計算車廂能放幾個行李箱、食材辨識與建議、數學計算、購物預算等。結果發現ChatGPT與Google Gemini表現較為準確,Perplexity偶有錯誤,而Grock則在信心和直接性上表現不錯。
2. 翻譯能力:四款AI皆能完成一般翻譯,但在複雜的多義詞翻譯上ChatGPT和Perplexity表現較優,Grock過於字面直譯,Gemini稍好。
3. 產品推薦與研究:ChatGPT 和 Grock提供較合理的產品推薦,Google Gemini會有生成不存在產品的錯誤,而Perplexity常常誤解問題。價格過低的產品要求下,ChatGPT、Gemini和Grock能正確回應無此產品,而Perplexity則會錯誤報價。
4. 連結解析能力:四者均無法直接讀取並解析網頁連結內容,只能給出一般建議。
5. 時效資訊掌握:都能較即時提供最新產品信息,有顯著進步。
6. 批判性思考:在分析「飛機受彈點分布」等具陷阱性的問題上,四者均正確識別晉級偏誤(survivorship bias)。
7. 創作生成:包括撰寫郵件、旅遊行程規劃、影片主題建議,ChatGPT在組織清晰度和實用性上表現最佳,Grock在有趣點子方面較有創意。
8. 圖像生成與編輯:多數回答質量不高,特別是偏差大,像是無法做出懶惰眼或符合要求的圖像。
9. 影片生成:目前只有ChatGPT和Google Gemini支援,Google Gemini生成的短片質量高於ChatGPT。
10. 事實查核:三款較主流AI能準確反駁錯誤訊息,Perplexity偶有資料錯誤。
11. 應用整合與擴充性:Google Gemini在Google工作套件整合和獲取即時數據方面較優,ChatGPT支援多種插件與客製化助理,Grock則可即時讀取X(前Twitter)內容。
12. 記憶能力:目前都只能有限記憶,且多數無法針對多輪對話中的細節保持長期記憶。
13. 語音互動及幽默感:ChatGPT與Google Gemini語音交互自然、幽默感較佳,Grock較為中等,Perplexity稍弱。
14. 深度研究功能:ChatGPT提供平衡且有價值的摘要,Gemini結果冗長且繁瑣,其他兩款表現普通。
15. 速度與使用體驗:Grock反應最快,ChatGPT次之,Gemini較慢,Perplexity慢且偶有錯誤。
綜合評分結果:
- ChatGPT總分最高(29分),表現均衡且一致,適合絕大多數消費者。
- Grock意外名列第二,表現相對快速且不錯。
- Google Gemini位居第三,優勢在整合Google生態系統和更高品質影片生成。
- Perplexity居最後,雖有些表現令人驚豔,但整體準確性及實用性不足。
價格方面,ChatGPT、Gemini及Perplexity約為每月20美元,Grock約30美元,綜合考量下,ChatGPT仍為性價比最高的選擇。
總結來說,目前最適合一般消費者使用並付費的AI聊天機器人是ChatGPT,兼具準確度、功能多樣性與使用體驗,不過不同需求用戶仍可依據各AI特色做選擇。