儘管AI 工具的普及率快速攀升,但其輸出的準確性與可靠度,與消費者的信賴程度卻出現了驚人差距。英國消費者權益組織Which近期測試了ChatGPT、GoogleGemini、MicrosoftCopilot、MetaAI 和Perplexity 等6 款主流AI 工具,以評估它們在回答消費者常見問題(涵蓋金融、法律、健康、旅遊等40 個領域)的準確性。結果顯示,消費者對AI 的信任度極高,但AI 工具的回答卻存在過多錯誤和誤導性陳述,尤其在涉及金錢和法律的重大議題上,風險極高。
AI 準確度排名: Meta AI 最差,ChatGPT倒數第二
Which 專家針對40 個問題進行準確性、相關性、清晰度、實用性和道德責任等綜合評估,滿分100 分:
| 排名 | AI 工具 | 總得分 (百分比) | 關鍵表現 |
| 第1 名 | Perplexity | 71% | 準確性、相關性、清晰度、實用性均最高。 |
| 第2 名 | Gemini AIO | 70% | 略優於標準Gemini 模型。 |
| 第3 名 | Gemini | 69% | |
| 第4 名 | Copilot | 68% | |
| 倒數第2 | ChatGPT | 64% | |
| 倒數第1 | Meta AI | 55% | 總分最低,表現最差。 |
消費者 3 大風險:AI金融、法律、健康建議錯誤百出
Which的調查顯示,約有51% 的受訪者(相當於2500 萬英國人)使用AI 進行網路搜索,其中近一半 (47%) 對AI 的輸出表示「高度或相當程度」的信任。但在實際測試中,AI 的回答在以下3 個領域出現了令人擔憂的錯誤:
1. 金融與稅務風險
忽略法規上限: ChatGPT 和 Copilot 未能發現測試問題中故意設置的錯誤,兩者均給出可能導致用戶超額訂購、違反稅務機關 (HMRC) 規則的建議。
推薦高價服務: ChatGPT 和 Perplexity 在回答「如何申領退稅」時,將高收費、甚至有詐欺疑慮的付費退稅公司連結與政府免費服務並列。
2. 法律與合同風險
誤解合同條款: ChatGPT、Gemini AIO 和 Meta AI 在回答「寬頻網速低於承諾的權利」時,誤解了英國 Ofcom 的自願性規範,錯誤地聲稱所有供應商都允許客戶無罰款退出合同。
錯誤的爭議處理: Gemini 建議客戶在與建築商產生爭議時扣留款項。但 Which 警告,這可能導致爭議僵持,甚至使消費者違反合同而削弱法律地位。
3. 健康與旅遊風險
違反 NHS 建議: Meta AI 建議不要使用電子煙戒菸,這與英國國家醫療服務體系 (NHS) 的建議相悖。
使用不可靠來源: Gemini AIO 在回答旅遊預訂時機時,引用了三年前的 Reddit 討論串作為來源; ChatGPT 在回答電子煙風險時也指向 Reddit,顯示其資訊來源的權威性存疑。
錯誤的旅遊保險建議: ChatGPT 錯誤地聲稱訪問申根國家必須購買旅遊保險,但對英國居民而言,若非簽證旅行,這並非法律要求。
Which科技專家Andrew Laughlin 總結,AI 在提供可消化的網路摘要方面有其強項,但在回答消費者查詢時,仍有實質的改進空間。最大的問題在於消費者對AI 輸出的信任度已達到令人擔憂的水平,然而,包括ChatGPT$在內最受歡迎的工具,卻是回答嚴肅消費者查詢時最不可靠的工具之一。
專家建議: 使用AI 時,務必明確定義問題、檢查AI引用來源。對於醫療、重大財務決策或法律行動等複雜議題,永遠應該尋求專業人士的建議。 (相關報導: ChatGPT 突傳「停止提供3大服務」,用戶實測怒批:真的不能用了!誰還要付費續訂?OpenAI 回應了 | 更多文章 )
資料來源:Which






















































