ChatGPT、Gemini輸了！哪個AI準確度最高？專家曝：問這3種問題最容易出錯 | 李伊晴

儘管AI 工具的普及率快速攀升，但其輸出的準確性與可靠度，與消費者的信賴程度卻出現了驚人差距。英國消費者權益組織Which近期測試了ChatGPT、GoogleGemini、MicrosoftCopilot、MetaAI 和Perplexity 等6 款主流AI 工具，以評估它們在回答消費者常見問題（涵蓋金融、法律、健康、旅遊等40 個領域）的準確性。結果顯示，消費者對AI 的信任度極高，但AI 工具的回答卻存在過多錯誤和誤導性陳述，尤其在涉及金錢和法律的重大議題上，風險極高。

AI 準確度排名： Meta AI 最差，ChatGPT倒數第二

Which 專家針對40 個問題進行準確性、相關性、清晰度、實用性和道德責任等綜合評估，滿分100 分：

排名	AI 工具	總得分 (百分比)	關鍵表現
第1 名	Perplexity	71%	準確性、相關性、清晰度、實用性均最高。
第2 名	Gemini AIO	70%	略優於標準Gemini 模型。
第3 名	Gemini	69%
第4 名	Copilot	68%
倒數第2	ChatGPT	64%
倒數第1	Meta AI	55%	總分最低，表現最差。

消費者 3 大風險：AI金融、法律、健康建議錯誤百出

Which的調查顯示，約有51% 的受訪者（相當於2500 萬英國人）使用AI 進行網路搜索，其中近一半 (47%) 對AI 的輸出表示「高度或相當程度」的信任。但在實際測試中，AI 的回答在以下3 個領域出現了令人擔憂的錯誤：

1. 金融與稅務風險

忽略法規上限： ChatGPT 和 Copilot 未能發現測試問題中故意設置的錯誤，兩者均給出可能導致用戶超額訂購、違反稅務機關 (HMRC) 規則的建議。

推薦高價服務： ChatGPT 和 Perplexity 在回答「如何申領退稅」時，將高收費、甚至有詐欺疑慮的付費退稅公司連結與政府免費服務並列。

2. 法律與合同風險

誤解合同條款： ChatGPT、Gemini AIO 和 Meta AI 在回答「寬頻網速低於承諾的權利」時，誤解了英國 Ofcom 的自願性規範，錯誤地聲稱所有供應商都允許客戶無罰款退出合同。

錯誤的爭議處理： Gemini 建議客戶在與建築商產生爭議時扣留款項。但 Which 警告，這可能導致爭議僵持，甚至使消費者違反合同而削弱法律地位。

3. 健康與旅遊風險

違反 NHS 建議： Meta AI 建議不要使用電子煙戒菸，這與英國國家醫療服務體系 (NHS) 的建議相悖。

使用不可靠來源： Gemini AIO 在回答旅遊預訂時機時，引用了三年前的 Reddit 討論串作為來源； ChatGPT 在回答電子煙風險時也指向 Reddit，顯示其資訊來源的權威性存疑。

錯誤的旅遊保險建議： ChatGPT 錯誤地聲稱訪問申根國家必須購買旅遊保險，但對英國居民而言，若非簽證旅行，這並非法律要求。

Which科技專家Andrew Laughlin 總結，AI 在提供可消化的網路摘要方面有其強項，但在回答消費者查詢時，仍有實質的改進空間。最大的問題在於消費者對AI 輸出的信任度已達到令人擔憂的水平，然而，包括ChatGPT$在內最受歡迎的工具，卻是回答嚴肅消費者查詢時最不可靠的工具之一。

專家建議： 使用AI 時，務必明確定義問題、檢查AI引用來源。對於醫療、重大財務決策或法律行動等複雜議題，永遠應該尋求專業人士的建議。 （相關報導： ChatGPT 突傳「停止提供3大服務」，用戶實測怒批：真的不能用了！誰還要付費續訂？OpenAI 回應了｜更多文章）

資料來源：Which