AI為何老愛亂答?OpenAI揭3解方「幻覺驟降80%」GPT-5降錯率新突破

2025-09-09 13:30
對許多台灣人來說,跟 ChatGPT 對話早已是生活日常,但你是否也遇過 AI 很有自信地說出「完全錯的答案」?這就是所謂的「AI 幻覺」。最新一份 OpenAI 研究報告就揭露,問題不只在於訓練數據,更在於「評估方式設定了錯誤獎勵」,這份研究提出三種解法,試圖重新定義 AI 的可靠性。(翻攝OpenAI官網)
對許多台灣人來說,跟 ChatGPT 對話早已是生活日常,但你是否也遇過 AI 很有自信地說出「完全錯的答案」?這就是所謂的「AI 幻覺」。最新一份 OpenAI 研究報告就揭露,問題不只在於訓練數據,更在於「評估方式設定了錯誤獎勵」,這份研究提出三種解法,試圖重新定義 AI 的可靠性。(翻攝OpenAI官網)

對許多台灣人來說,跟 ChatGPT 對話早已是生活日常,但你是否也遇過 AI 很有自信地說出「完全錯的答案」?這就是所謂的「AI 幻覺」。最新一份 OpenAI 研究報告就揭露,問題不只在於訓練數據,更在於「評估方式設定了錯誤獎勵」,這份研究提出三種解法,試圖重新定義 AI 的可靠性。

三大重點先看

  1. 幻覺定義:AI自信回答錯誤資訊,GPT-5雖比GPT-4幻覺率下降45%~80%,但仍無法根除。
  2. 原因解析:訓練只專注於「預測下個詞」,卻沒有「真/假」標籤,評估方式還鼓勵猜測。
  3. 解方提出:需懲罰自信錯答、鼓勵適度表達不確定,並要求回報可驗證來源。

    AI幻覺到底是什麼?

    OpenAI 將幻覺定義為「語言模型產生看似合理但錯誤的陳述」,例如研究人員請 AI 提供 Adam Tauman Kalai 博士的論文題目,結果卻得到三個完全錯誤的答案;再問生日,又收到三個不同的錯誤日期,這種「錯得離譜卻信心滿滿」的表現,正是 AI 幻覺最典型的案例。

    為何AI容易「自信地亂答」?

    研究報告指出,幻覺部分源自於模型的訓練方式大型語言模型在預訓練時,只學習如何預測下一個詞,卻沒有「真假標籤」來判斷正確性,拼寫或括號錯誤這種高頻規律,隨著數據規模擴大會被修正,但像「寵物生日」這種低頻資訊,根本無法靠模式預測,因此容易出錯。

    更大的問題在於評估方式,現行的測試多以「答對率」計分,讓模型在不確定時選擇亂猜,研究團隊將其比喻成多選考試:「隨便猜還有可能拿分,但留白就保證零分」,這種設計自然讓模型傾向冒險。

    解決幻覺要靠什麼方法?

    對於AI會有幻覺的情況,研究團隊提出三種具體方向:

    • 懲罰自信錯答:如果模型在明顯錯誤時還表現自信,應該比「承認不知道」扣更多分。
    • 鼓勵表達不確定:允許模型在缺乏資訊時回答「需要更多資料」,並給予部分分數。
    • 要求可驗證依據:不只回答結論,還需提供來源,才能建立使用者信任。

      OpenAI 強調,這不只是小幅調整,而是要全面重寫評測標準,避免模型學會只會「耍運氣」。

      哪些迷思需要澄清?

      OpenAI 在研究中也針對外界對「幻覺」的五大誤解提出澄清,首先,提高準確率並不代表就能徹底消除幻覺,因為現實世界本來就存在許多無解的問題;其次,幻覺並不是必然的現象,語言模型完全可以選擇不作答,而不是硬要給出答案;再者,並非模型愈大幻覺就愈少,有時候小型模型反而更能意識到自己的知識界限

      此外,幻覺並不神祕,研究已經能夠解釋其統計學上的生成機制,也清楚看到它在現有評估體系中如何被「獎勵」。最後,單純依靠幻覺評估工具也不足以解決問題,因為只要業界仍以「答對率」作為最重要的指標,模型就會持續傾向於「自信亂答」,而不是學會承認不確定。 (相關報導: AI泡沫破裂會怎樣?Sam Altman預見「市場過熱」1徵兆 1999網路風暴恐重演 更多文章

      來源:OPENAI研究報告

      喜歡這篇文章嗎?請作者喝杯咖啡支持他

      請他喝杯咖啡
      更多文章
      非理工生也能應徵台積電 陽明交大學士後專班解半導體人才荒
      柯文哲復仇先攻高雄?淺談民眾黨布局 黃暐瀚揭1關鍵「2026、28全看它」
      尼泊爾禁社群爆示威!政府封鎖平台原因為何?群眾怒吼「打貪不是封網」
      台灣哪個縣市最讓人不想居住?網全點1地「交通混亂、天氣很差」:房價完全不能比
      川普政策阻擋最酷新機!大疆1神機遭「軟封殺」台灣品牌輸美恐被迫延後
      中國熱議》中美關稅談判注定觸礁?中國景氣這麼差,「只談不讓」的底氣哪來的?
      國際民航組織大會將登場 交通部曝已提前加拿大作業:去年曾赴日本溝通
      癌症患者注意!UCLA揭百憂解能「快樂殺癌」 鼠腫瘤縮小50%
      不放過柯文哲?北檢聲明「將提抗告」 媒體人預言1結果:事情大條
      苗栗求職快訊!星巴克、力積電、台玻大舉徵才,1500個職缺等你來面試
      聯經數位結盟「鬼后」笭菁 AI配音推動台灣有聲書產業新篇章
      國際熱議》習近平「93大閱兵」看似風光,其實暗藏中國軍方整肅後的大亂流
      台灣設主權基金為「順從川普」?施俊吉質疑比照美日密約投資:13兆付得起嗎
      石破茂剛辭職,法國內閣也垮台!《經濟學人》解析法蘭西的三重困境,馬克宏陷入兩難:換個新總理、還是冒險改選國會?
      被逮14次還能無現金保釋終於殺人 川普指控民主黨縱放罪犯政策是烏克蘭難民刺殺案主因
      勞保破產會領不到退休金?負債年增1.7兆「恐撐不到2031」勞動部這樣解釋
      157萬身家全騙光!最新電話詐騙「5張提款卡都被掏空」,太多人存款歸零才發覺
      提升「台南味」!單獨設館進軍澳洲食品展 黃偉哲推農漁產品拓銷市場
      聯合國大會開議 外交部曝今年度推案策略:不受中國紀念3個80周年影響
      史上最大薪酬方案》特斯拉董事會無預警祭出1兆美元留住馬斯克,為的是什麼?
      「找工作找到快沒錢,真的很焦慮!」屏東青年靠補助挺過待業期,成功進入長榮航勤
      中秋送禮不撞款?北分署「禮悅人心」精選有料禮盒,長輩、客戶都驚艷
      下載這些App恐出大事?網急喊刪天氣、清理類程式 報告還原警政署緊急通報
      八德鄉親注意!金城街至山下街新路動工,103公尺打通交通瓶頸,預計明年完工
      不是行動電源!去日本千萬不要帶這3物,託運手提都不行、安檢當場被攔下丟掉
      台中男才毆母、阿姨惹事!遭表弟撂人打斷手腳 住院突溜出病房「被失聯移工砍死」
      股神信號來了?巴菲特大量買入這商品 專家曝降息1大利多:天然的比特幣
      避免讓你投資到神不喜歡的產業 美投資機構推出信仰價值投資基金
      移民突襲再升級?最高法院再挺川普驅逐行動 拉丁裔成「合法獵物」
      民眾黨兩個太陽之爭?白營強調「只有一個」 他五重點分析:黃國昌GG了
      利多來了?換屋族「售屋期限」放寬18個月,專家示警影響有限
      薪水上看9萬!台灣1行業「不看學歷免經驗、歡迎退休二度就業」,各地都有職缺不怕被淘汰
      從營養午餐、智慧黑板到「師生人手一台平板」,張麗善:要讓孩子贏在起跑點
      贈與太太1000萬元,還是要繳大筆稅金!律師曝忽略1細節,國稅局計入遺產總額課稅
      地瓜別只知道放烤箱、電鍋蒸!日本專家教1招「免開火甜味升級」,口感綿密鬆軟不濕爛
      金融熱議》美國就業數據太差,美債投資人有救了?別高興太早,還得看這「指數」
      高雄成柯文哲復仇舞台?周玉蔻揭「綠營2直轄市沒了」藍綠看法不一
      雲林「實驗國小」靠養蚯蚓、畫油桶,勇奪世界綠旗、贏得美國EPA讚譽
      讓所有人擁抱海洋!藍海生活節推「海洋平權」,打造真正的無障礙假期
      毒水果流入水果攤!農藥超標「吃到恐視力模糊」,衛生局曝只用水沖一沖不夠
      原本沒打算抗告柯文哲?律師曝北檢盤算 靠這招免負責任「順便嚇嚇他」
      運動部掛牌成立 賴清德喊體育能團結國家:行政團隊會鼎力支持李洋
      房市活水就怕「狼又來了」?專家曝周末看房尷尬實況:鬼月只是牽拖的藉口
      柯文哲能再戰2028?2條件成致命關鍵 沈富雄點名「最可能劇本」動向曝
      黃金、美股誰更賺?阮慕驊揭秘回報率,「這資產」史上最大漲幅才剛開始
      【試駕】4.4升V8、6D Dynamics動態氣壓懸吊,Land Rover Defender OCTA無懼任何公路與越野全面主宰
      又有毒蔬果流入市面!台灣人愛吃的「這青菜」農藥超標、超常違規,不合格名單曝光
      科技熱議》輝達真正的對手現身!100億美元大訂單突然轉向,會讓黃仁勳頭痛?
      Toyota Yaris只排第三!8月國產車銷量冠軍是它,車主讚省油耐操,妥善率同價位沒對手
      川普政府可能宣布全國住房緊急狀態 美地產商按讚並建議同時拉動三個主要政策槓桿