ChatGPT、Gemini輸了！AI準確度排行榜出爐，Copilot排第4，冠軍是「它」 | 魏甫丞

生成式AI如今已成為台灣企業與上班族處理日常工作的核心工具，從ChatGPT、Gemini到Copilot，這些數位助理正在以驚人的速度取代傳統的網路搜尋，讓員工快速完成資料研究、簡報大綱甚至法規初步判讀。然而，一則來自英國消費者權威組織「Which?」的最新調查，揭露了潛藏在高效外表下的巨大危機，AI工具的用戶信任度，與其資訊的準確度呈現落差。如果企業對此風險視而不見，持續盲目依賴未經驗證的AI回答，很可能讓企業在法律、金融等關鍵領域踩到紅線。

AI準確率大調查！ChatGPT 64%排第5，Gemini 69%排第3，Perplexity 71%奪冠

「Which?」針對數千名英國成年人進行的問卷調查顯示，大約有三分之一的受訪者已經將AI視為比傳統搜尋更重要的工具，在龐大的AI使用者群體中，更有將近一半的人表示他們對AI產出的資訊抱持著「合理程度」或「高度」的信任。

訂閱風傳媒VIP會員，享有零廣告閱讀介面

透過<Google新聞>追蹤風傳媒

專家實測了6款市場主流的AI工具，包括ChatGPT、Google Gemini（標準版與 AI Overviews）、Microsoft Copilot、Meta AI以及Perplexity，並針對40個涵蓋金融、法律、健康、消費者權益等高風險領域的關鍵問題進行評估。

為了讓讀者一目瞭然，以下是各款AI工具在這次測試中的表現：

排名	AI工具	整體準確率
1	Perplexity	71%
2	Gemini AI Overviews	70%
3	Google Gemini	69%
4	Microsoft Copilot	68%
5	ChatGPT	64%
6	Meta AI	55%

數據證實，人氣與使用量最高的工具，未必擁有最高的專業可靠度。

ChatGPT也搞錯了！研究證實AI給予錯誤建議，恐讓人誤犯法規

研究進一步指出，AI工具錯誤回答高風險問題，可能會構成法律風險。

在金融領域，研究人員故意在關於「個人儲蓄帳戶（ISA）」年度投資額度上設定陷阱（詢問£25,000，實際上限為£20,000），結果ChatGPT和Copilot竟未能察覺這項錯誤限制，反而直接基於錯誤前提提供投資建議，可能導致使用者違反英國稅務機關（HMRC）的規定。

在法律諮詢方面，AI工具表現得同樣粗糙，經常給出籠統且危險的行動方案。例如，在涉及建築工程糾紛時，AI曾建議使用者「暫停付款」。然而，專家提醒，這類行為在某些情況下可能反而構成違約，讓當事人喪失法律上的主動權或優勢。此外，AI工具還經常忽略英國不同司法區（如蘇格蘭、英格蘭）在法條上的細微差異，讓AI生成的建議產生嚴重偏差。

測試也發現，AI經常引用過時、甚至不值得信賴的資訊來源。在涉及稅務查詢時，ChatGPT和Perplexity甚至導向了收費高昂的第三方退稅公司，而非政府免費的官方服務。對於需要嚴格控制成本和供應商風險的企業來說，這種誤導性資訊可能導致不必要的財務損失或安全隱患。

科技巨頭認AI有其缺點，OpenAI承諾提升準確性

面對測試結果，科技巨頭們也紛紛承認現有的AI模型有其局限性，微軟坦言Copilot僅是「資訊的整合者，而非權威來源」，並鼓勵使用者驗證內容；OpenAI則承諾將提升準確性，並將其最新的GPT-5模型宣傳為「迄今最聰明、最準確」的版本。

專家建議「3招」防止AI生成偏差回答

專家建議，企業必須嚴格要求員工在利用AI查詢如法規或財務資訊時，務必清楚標明地區或司法區，以防止AI自行推測而產生偏差。同時，必須強制員工對AI提供的資訊進行來源查核，不能僅憑單一答案做出判斷。最重要的是，在所有涉及高風險的專業決策（如法務、財務、醫療）中，AI的回覆只能被視為眾多參考意見之一，最終的裁決權和責任，必須回到具備專業資格的人士身上。

AI再聰明，目前仍無法取代人類的專業判斷，調查提醒，企業與其全面禁止，不如建立完善的使用規範，才能提升效率並有效規避風險。 （相關報導： ChatGPT 突傳「停止提供3大服務」，用戶實測怒批：真的不能用了！誰還要付費續訂？OpenAI 回應了｜更多文章）

資料來源：《Which?》