當ChatGPT「一本正經胡說八道」,如何破除「AI幻覺」?《經濟學人》的四種可能解方

2024-03-05 20:00

? 人氣

「幻覺」終究難以避免?

雖然《經濟學人》提出種種解方,但也承認大型語言模型產生幻覺終究難以避免。美國軟體公司Vectara一項追蹤調查顯示,ChatGPT 4.0的摘要仍有3%是錯誤的;Claude 2 為8.5%、Gemini Pro 為4.8%,這讓程式設計師集中心力在檢測而非預防「幻覺」的出現。在其檢測的過程中發現一項線索,在大型語言模型選擇回覆的字詞中,如果許多單字被AI挑中的可能性都相當接近,這意味著AI也不確定要選擇何者為是。這項線索表明大型語言模型就是在猜,而不是使用它所接受到的訊息去判斷並知道何者為真。

[啟動LINE推播] 每日重大新聞通知

檢測幻覺的另一種方法是訓練另一個大型語言模型來進行事實查核。作為事實查核的模型可以得到「基本事實」以及被查核的模型的回覆,然後判斷它是否同意被查核模型的敘述。或者,可以向事實查核模型提供被查核模型對同一個問題的多種回覆,並判斷這些回應是否一致,如果不是的話,被查核模型的回覆就很有可能是幻覺。晶片製造商輝達(Nvidia)就開發了一個開源框架,用於建立圍繞大型語言模型的護欄、使其更加可靠,目的之一就是在需要時部署事實查核機制來防止幻覺。

微軟AI Frontier的負責人艾斯・卡瑪(Ece Kamar)表示,雖然這些方法可以降低幻覺發生的機率,但「目前還不清楚這些技術是否能夠完全消除幻覺」。她指出,在許多情況下,這類似於模型的自我破壞,舉例來說,如果大型語言模型被要求對一部奇幻小說提出想法,但僅限給予符合現實世界的回應,那麼其產出將會令人失望。Kamar表示,她的研究目的不是消除所有模型的幻覺,而是阻止模型在無異的情況下產生幻覺。

許多研究人員相信,避免AI幻覺必須使用更多更好的數據來訓練大型語言模型;也有人認為,大型語言模型作為一個機率模型,永遠無法達到完全消除幻覺的境地。《經濟學人》指出,真正的問題恐怕不在AI模型本身、而是在於使用者。生成語言曾是人類獨有的能力,大型語言模型令人信服的文字輸出能力讓人們輕易將其擬人化,假設它們能像人類那樣操作語言、甚至進行推理和理解。但目前仍沒有證據顯示大型語言模型能辦到這些事,因為它們無法學習邏輯一貫的世界模型。即使語言模型不斷改進、輸出更符合人類期望的答案,我們依舊不清楚AI模型是否更為「人性化」。要讓AI模型在現實世界中獲得更好的運用,光是訓練AI是不夠的,更為重要的是,我們也該訓練人類如何使用和看待AI模型。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章