生成式AI如今已成為台灣企業與上班族處理日常工作的核心工具,從ChatGPT、Gemini到Copilot,這些數位助理正在以驚人的速度取代傳統的網路搜尋,讓員工快速完成資料研究、簡報大綱甚至法規初步判讀。然而,一則來自英國消費者權威組織「Which?」的最新調查,揭露了潛藏在高效外表下的巨大危機,AI工具的用戶信任度,與其資訊的準確度呈現落差。如果企業對此風險視而不見,持續盲目依賴未經驗證的AI回答,很可能讓企業在法律、金融等關鍵領域踩到紅線。
AI準確率大調查!ChatGPT 64%排第5,Gemini 69%排第3,Perplexity 71%奪冠
「Which?」針對數千名英國成年人進行的問卷調查顯示,大約有三分之一的受訪者已經將AI視為比傳統搜尋更重要的工具,在龐大的AI使用者群體中,更有將近一半的人表示他們對AI產出的資訊抱持著「合理程度」或「高度」的信任。
專家實測了6款市場主流的AI工具,包括ChatGPT、Google Gemini(標準版與 AI Overviews)、Microsoft Copilot、Meta AI以及Perplexity,並針對40個涵蓋金融、法律、健康、消費者權益等高風險領域的關鍵問題進行評估。
為了讓讀者一目瞭然,以下是各款AI工具在這次測試中的表現:
| 排名 | AI工具 | 整體準確率 |
| 1 | Perplexity | 71% |
| 2 | Gemini AI Overviews | 70% |
| 3 | Google Gemini | 69% |
| 4 | Microsoft Copilot | 68% |
| 5 | ChatGPT | 64% |
| 6 | Meta AI | 55% |
數據證實,人氣與使用量最高的工具,未必擁有最高的專業可靠度。
ChatGPT也搞錯了!研究證實AI給予錯誤建議,恐讓人誤犯法規
研究進一步指出,AI工具錯誤回答高風險問題,可能會構成法律風險。
在金融領域,研究人員故意在關於「個人儲蓄帳戶(ISA)」年度投資額度上設定陷阱(詢問£25,000,實際上限為£20,000),結果ChatGPT和Copilot竟未能察覺這項錯誤限制,反而直接基於錯誤前提提供投資建議,可能導致使用者違反英國稅務機關(HMRC)的規定。
在法律諮詢方面,AI工具表現得同樣粗糙,經常給出籠統且危險的行動方案。例如,在涉及建築工程糾紛時,AI曾建議使用者「暫停付款」。然而,專家提醒,這類行為在某些情況下可能反而構成違約,讓當事人喪失法律上的主動權或優勢。此外,AI工具還經常忽略英國不同司法區(如蘇格蘭、英格蘭)在法條上的細微差異,讓AI生成的建議產生嚴重偏差。
測試也發現,AI經常引用過時、甚至不值得信賴的資訊來源。在涉及稅務查詢時,ChatGPT和Perplexity甚至導向了收費高昂的第三方退稅公司,而非政府免費的官方服務。對於需要嚴格控制成本和供應商風險的企業來說,這種誤導性資訊可能導致不必要的財務損失或安全隱患。
科技巨頭認AI有其缺點,OpenAI承諾提升準確性
面對測試結果,科技巨頭們也紛紛承認現有的AI模型有其局限性,微軟坦言Copilot僅是「資訊的整合者,而非權威來源」,並鼓勵使用者驗證內容;OpenAI則承諾將提升準確性,並將其最新的GPT-5模型宣傳為「迄今最聰明、最準確」的版本。
專家建議「3招」防止AI生成偏差回答
專家建議,企業必須嚴格要求員工在利用AI查詢如法規或財務資訊時,務必清楚標明地區或司法區,以防止AI自行推測而產生偏差。同時,必須強制員工對AI提供的資訊進行來源查核,不能僅憑單一答案做出判斷。最重要的是,在所有涉及高風險的專業決策(如法務、財務、醫療)中,AI的回覆只能被視為眾多參考意見之一,最終的裁決權和責任,必須回到具備專業資格的人士身上。
AI再聰明,目前仍無法取代人類的專業判斷,調查提醒,企業與其全面禁止,不如建立完善的使用規範,才能提升效率並有效規避風險。 (相關報導: ChatGPT 突傳「停止提供3大服務」,用戶實測怒批:真的不能用了!誰還要付費續訂?OpenAI 回應了 | 更多文章 )
資料來源:《Which?》






















































