王道維觀點:當Google遇上ChatGPT——從語言理解的心理面向看AI對話機器人的影響

2023-02-11 05:50

? 人氣

2. 人工回饋的強化式學習:相較於之前的文字生成,ChatGPT成功更重要的因素,應該是透過人工標記員的反饋調教。也就是說,開發團隊(OpenAI)使用數十位人工標記員來給它的回答作評分[7],讓ChatGPT的文字生成模型再透過一種稱為強化式學習的方式來強迫自己將本來機率較高(但不一定符合人類論述邏輯或可能有許多偏見或錯誤的結果)的回答調整成較低的機率,直到輸出的結果是符合人類標記員所認可的標準。這種稱作「人工回饋的強化式學習」(Reinforcement Learning from Human Feedback,RLHF)[8] 的確讓ChatGPT輸出的文字免除許多其他對話機器人因為訓練資料中所包含的錯誤、偏見或不適當回應方式降低許多。

[啟動LINE推播] 每日重大新聞通知

事實上,使用過ChatGPT的人會發現,同類型的問題往往也會得到類似模板的回應架構,使其內容看來更有說服力或至少有個正式文章模樣。如果刻意加入一些敏感字詞,如自殺、嚴重疾病、種族歧視等等,ChatGPT可能就會停下來說無法提供更多意見,建議詢問相關的專家或求助專業領域的工作者。雖然這讓許多獵奇的使用者可能覺得無趣,但至少減少不必要的困擾。因此我們可以了解,若不是最後有這些事先訓練的人工標記員在把關輸出的結果(等於是在教AI如何說話),我們所看到的對話機器人很可能後來會語無倫次的輸出一大批帶有明顯偏見的文字,降低大家對它的信任。

3. 使用當下的即時訓練:除了以上兩個主要的特色以外,筆者認為ChatGPT所引入了第三項特色技術又更幫助使用者更願意與之互動,也就是使用一次性學習(One-Shot Learning)的方式,讓AI可以根據使用者前次的文字即時調整回應訊息,讓同一串的對話可以彷彿緊扣著主題。畢竟我們可以想像,不管這樣的AI事先經過多少這樣的後天訓練也不可能符合所有的使用者習慣的說表達方式,所以這樣的設計就讓AI會對當時的對話有所學習而體貼使用者的習慣或預期,提升使用上的好感度。但是這個功能的問題在於,這也代表使用者可以間接引誘ChatGPT來提供不實或錯誤的回應。例如有朋友詢問2+5等於多少,GPT回答是7,但是他故意說老婆認為這個答案不對,應該是12,GPT就馬上應和者說你說得對而調整答案……。

透過以上簡單的說明,ChatGPT這類AI機器人與人類說話表意最大不同之處在於,它並非「有意識」地提供「答案」,而只是某些文字組合與其機率。這也是為什麼它可能申論題回答得不錯,但數學題往往很差,因為他把數字當成文字在處理,尋找最可能出現的數字答案而非實際做計算[9]。因此,GPT所提供的文字組合是否能適當的「回應到外在世界」或是是否前後一致且精密的邏輯正確,其實完全無法排除純屬巧合的味道,也是為何之前擁有許多AI技術的大型公司遲遲不太敢推出類似功能的產品[10],簡單來說,就是怕被笑。但是筆者想要說明的是,即使這樣也足以帶來很大的衝擊,因為人類接受訊息並不只是一板一眼的回應,而是還帶有更多「心理層面」的活動。筆者認為這才是讓我們評估這類AI對話機器人時所需要自覺與評估的重點。

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章