誰該擁有資料解釋權?從ChatGPT訓練與AI社會的未來,談標註流程私有化危機

2023-04-14 10:20

? 人氣

增強式學習比較像教鸚鵡說人話,而ChatGPT就是那隻很厲害的鸚鵡。(來自Midjourney)

增強式學習比較像教鸚鵡說人話,而ChatGPT就是那隻很厲害的鸚鵡。(來自Midjourney)

結論先講

隨著AI模型的能力越來越強大,能夠聽懂並執行的人類指令越來越多,當模型回應的好壞是由一小群人類標註者來決定的時候,可能會產生新型態的科技獨裁。然而,透過公共化授權條款,允許公民參與標註流程,避免標註資料的解釋權完全掌握在私有企業手中,可望減少企業因技術進步而產生的科技擴權效應。

[啟動LINE推播] 每日重大新聞通知

最近有人問我:「那個ChatGPT、GPT4那麼厲害,聽說是因為用了RLHF技術,那是不是代表已經不需要人類標註,AI自己就可以學了呢?」我回答道:「不是,還是需要人類標註,只是這個標註跟我們傳統的資料標註不太一樣。」那麼到底是哪裡不同呢?如果還是需要人類標註,這個訓練出來的AI會不會很容易受人類標註者偏見或暗示的影響?

由於每個人都有自己的立場與偏好,由一小群標註人員所標註出來的內容,真的能代表不同的使用者群體嗎?特別是這一小群人還是專為某家公司服務。有沒有可能,這一小群被選中的標註人員,在給AI訓練的標註資料中,放入了偏袒自己的標註訊息,以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士?而這群人將成為AI時代的權貴階級,透過密語或暗示,可以命令AI做一般人的命令無法做到的事情,例如操縱股價之類的?

另一方面,為了不讓資料標註過程被一小群人把持,是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與,讓標註的制定過程更加透明、民主與公共化?

什麼是RLHF?

為了瞭解 ChatGPT 是如何把標註過程私有化,我們要先解釋一下RLHF的運作方式。RLHF 的全名是 Reinforcement Learning from Human Feedback [4],中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口,什麼是從人類反饋,什麼又是增強式學習?這個新方法跟傳統的AI用標註資料訓練又有甚麼不同?

下圖是在 ChatGPT 官網上可以找到的 RLHF 訓練流程圖,我們可以看到大致分成三步驟:

20230329-在 ChatGPT 官網上可以找到的RLHF 訓練流程圖,可以看到大致分成三步驟。(取自 ChatGPT )
在 ChatGPT 官網上可以找到的RLHF 訓練流程圖,可以看到大致分成三步驟。(取自 ChatGPT https://openai.com/blog/chatgpt )

1.蒐集示範資料,透過監督式學習對 GPT3 進行微調。

2.蒐集對比資料,訓練獎勵模型。

3.使用增強式學習,使模型的輸出內容在獎勵模型的引導下,盡可能得到最高分。

看到這裡,你可能已經開始頭大了,一下是監督式訓練,一下是獎勵模型,一下又是增強式訓練……接下來,我會用兩個與日常生活比較貼近的比喻,來解釋監督式學習與增強式學習的概念。

監督式學習

監督式學習很像補習班教學生,反正就給一大堆練習題,叫學生自己做,做完自己對答案,自己訂正,下次再遇到同樣題目要答對。不過,如果只有這樣就太簡單了,學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣,會稍有不同,如果這樣學生還能答對,就代表他學會了。學生若能在考試中答對的越多,就表示他真的從練習題中學到了東西。

增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢?一開始主人只是不斷反覆給牠聽一段人類對話,牠一邊聽,一邊模仿牠聽到的發音。慢慢的,鸚鵡好像會說人話了,會莫名其妙蹦出一句「今天天氣26度」,可能主人給牠聽的是氣象報告的對話。

後來主人決心訓練牠成為氣象主播。於是主人就問牠:「今天天氣如何?」第一次鸚鵡隨便回:「你好嗎?」主人就不理牠,再問一次:「今天天氣如何?」就這樣問了100次,終於有一次鸚鵡回:「今天天氣26度!」主人就獎勵牠,給牠一頓蟲蟲大餐。

後來慢慢地,鸚鵡回應「今天天氣26度!」的機率變高了,從100次回一次,到50次回一次,到10次回一次,到每次必回…。從此以後當主人說:「今天天氣如何?」只要鸚鵡回答:「今天天氣26度!」,主人就給牠一條蟲蟲吃,鸚鵡就很高興。

如此,每當鸚鵡又蹦出了一句甚麼話,主人就訓練牠聽上一句話,然後接下句話。最後看起來,鸚鵡好像真的聽得懂人話了!主人問甚麼,牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。

監督式學習與增強式學習的差異

在補習班的例子中,給學生練習的題目與答案,都是老師給的。套用到監督式AI的訓練過程上,題目就是指原始資料,而答案就是人類對原始資料所做的標註。

學生通常不會自己出題目自己做,因為學生本來就什麼都不知道,既然毫無相關知識,怎麼可能自己出題給自己做呢?所以在監督式學習中的原始資料,必然不是來自於學生自己,而是從老師或其他具有相關知識的人蒐集而來。而題目的答案,當然也是由老師或具有相關知識的人所標註上去的。

然而,在訓練鸚鵡說人話的例子中,主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做,因為很顯然,鸚鵡看不懂題目。但是鸚鵡的模仿能力很強,能夠覆誦聽到的氣象報告內容。

主人是等到牠能覆誦出一段比較完整的句子後,再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式,讓鸚鵡記住,只要當主人說:「今天天氣如何?」回答:「今天天氣26度!」就有獎勵!

套用到增強式學習訓練AI的過程上,一開始給鸚鵡聽的氣象報告內容,相當於未標註的原始資料;而鸚鵡覆誦的結果,相當於模型模仿生成的產出。主人的指令就像是輸入到 ChatGPT 的 prompt 提示詞,而主人對牠產生的回應進行評分,就是獎勵模型(Reward Model)。

為了讓這個獎勵模型能夠對齊(Aligment)人類觀眾的喜好,我們需要找人來給生成的產出做評分。這樣的過程,人類標註的對象是模型生成的產出,而不是未標註的原始資料。

所以,監督式學習與增強式學習最大的差別在於人類標註的對象不同,一個是原始資料,一個是模型生成的產出。

為何 ChatGPT 需要精心設計的 Prompt(提示詞)才能得到人們想要的回應?

讓我們回到鸚鵡的比喻上。

慢慢的,觀眾的要求越來越多,主人不得不訓練牠講得更好更仔細更正確。因此,主人就給牠更詳細的指令:「今天天氣如何?地點是新竹市,適合出遊的程度?」原先,鸚鵡回「今天天氣26度!」就不夠好了,主人不給牠蟲吃。

後來鸚鵡試了很多次,終於有一次回:「新竹市今天天氣26度!適合全家出遊。」主人覺得不錯,就給牠一頓蟲蟲大餐。

主人設想各種觀眾可能會問的指令,讓鸚鵡一條一條去試。到最後,這隻鸚鵡看起來越來越聰明,可以正確回應好多複雜的指令,只是當指令不夠明確的時候,牠還是只能回答:「今天天氣26度!」

ChatGPT就是那隻很厲害的鸚鵡,因為全世界所有的知識都撥放給牠聽過了,牠隨便講一段都好像是真的。之後主人只要訓練牠,看到這個指令,如果牠回了1000次中剛好有一次回得很好,就得到獎勵,慢慢的主人只要下指令,牠就會開始說很多很厲害的話了。

傳統的資料標註與RLHF的人類標註之間的差異

傳統的資料標註是,人們已經蒐集了一大堆原始資料,不管是來自網路、訪談紀錄、使用者資料......等。由於我們已經知道資料中大概包含哪些我們想看或不想看到的東西,並且分好了類別,因此我們可以直接請人來對資料進行標註。

然而RLHF的標註,若用鸚鵡的比喻,就是在當主人下指令,而牠回應出不好的內容時,主人要去判斷回應的內容是否合乎觀眾的標準?所以必須是先有這隻鸚鵡來產生回應,人類標註者再去判斷鸚鵡回應的好壞。

也就是說,我們外人是沒有辦法直接參與他們的標註的,必須要由鸚鵡的主人來請人跟鸚鵡互動,因為鸚鵡只會聽給牠獎賞的人的話。人也只能透過牠產生的錯誤去反饋。你不能給牠一個不是牠產生的東西,例如隨便抓一條法律,告訴牠這是錯的,那是對的,這樣牠不會理你。

就像有一種訓練寵物的方法是:假如你的貓到處亂尿尿,那你就要拿牠尿過的東西給牠聞,然後給牠懲罰,這樣牠才知道錯。你無法跟牠講大道理,因為牠根本聽不懂。一定要拿牠產出的東西教牠才可以。

這樣的後果是,不像傳統的資料標註,標完之後,人們原則上有辦法回去檢視標註資料的正確性,指出哪裡可能帶有標註者的偏見及錯誤;RLHF的標註是不可溯源的,因為標註對象是模型生成的內容,而非原始資料。就算能取得生成的內容,但是由於對內容是採用獎勵模型來評分,只有相對的好壞,沒有絕對的正確。這種對生成內容的評分標註,是在錯誤之間中比較,很可能大多數都是沒有意義的。因此對RLHF標註的追溯,可能難以追回到單一個錯誤發生的標註上,而更可能是散布在成百上千個評分標註中微小的錯誤偏好,累積形成一個巨大的錯誤。

GPT有智慧嗎?

從這個角度來看,其實GPT是沒有智慧的。因為即使是一個人類3歲小孩,你也可以用某種程度講道理的方式讓他知道錯,雖然不見得都能立刻改正。但GPT是,你跟它講錯,它會口頭上回覆你「我知道錯了」,但是它的大腦(GPT的模型參數)並不會因為你跟他說錯就修正。它的「我知道錯了」的反應,其實只是因為觀眾喜歡聽到它這樣說,並非它具有自我修正的能力。如果真的要修正,還是必須透過上述的訓練方式,特別針對這個可能出錯的情境,反覆地給它懲罰,這樣才會更新到它的大腦(GPT參數)裡。

有人問說,只不過跟他講一下錯誤,叫牠修正,有這麼難嗎?是的,就是這麼難。其實這正是目前AI領域中尚未解決的難題之一。

以現在的AI模型來說,如果你想要修正某個答案,就幾乎要重複前面所有的訓練過程,把所有資料重新拿來訓練一遍。這是因為神經網路有個「災難性遺忘」(Catastrophic Forgetting)[3]的嚴重問題,導致沒法保證改了這個不會忘了那個。所有的模型參數都是糾纏在一起的,你不可能只改錯的,而不去動到其它的。你若把其它參數全部固定住,可能就改不動錯的;增加新的參數,原來對的結果可能也跟著變不對。

因此,如果哪一天AI進展到可以只要用說的,講道理告訴它錯,不需要訓練,它就會自己更新參數,那就真的是大突破了!不過,雖然人類應該是可以做到這一點的,但是並不完美,所以人類還是會犯罪、犯錯,會講不聽….。

標註流程私有化的危機

從上面鸚鵡的比喻我們可以知道,如果要訓練一隻鸚鵡,必須要是鸚鵡的主人找人來標註,然而這群人是按照什麼標準決定鸚鵡回應的好壞,以及他們互動過程產生的內容,外人都不得而知。

這將導致一個嚴重的問題。隨著AI模型的能力越來越強大,能夠聽懂並執行的人類指令越來越多,當模型回應的好壞是由一小群掌握標註標準跟範圍的特定組織、企業、科技官僚(technocracy)或獨裁政體來決定時,可能會產生新型態的科技獨裁。

這些被選中的標註者,是新時代的統治階層,他們掌控著AI輸出的內容。而其他大部分的人都深深地依賴著AI生成的內容,甚至到了沒有AI幫助就無法工作[7,8]的地步。

在新時代中,只有科技官僚才具備有解釋標註的權力。如果有人說:「AI這個回應錯了,是標註的人標錯了!」這個人可能會面臨極大的風險,沒有人會相信他,甚至認為他「僭越」了自己的職責,居然敢挑戰AI?

這是不是像極了中世紀天主教廷,只有教皇掌控著解釋聖經的權力,其他人連看一眼聖經的資格都沒有?

由此可見,掌握AI標註資料的解釋權,將可能和具備國家法律解釋權有同等樣的權力,甚至更大。

解方?標註流程的公共化

其實在國外,很早就已經有一些組織在討論關於AI民主化(AI Democratisation)的問題了。根據這篇文章[1]的描述,AI 民主化大致分成四種類型:

AI使用民主化(democratisation of AI use)
AI開發民主化(democratisation of AI development)
AI利益民主化(democratisation of AI benefit)
AI治理民主化(democratisation of AI governance)

其中,前三項AI民主化都可被歸類為目標以增進AI可被大眾利用的可用性(accessibility)為主的提議。只有第四項,AI治理民主化,它的目標主要並不是增進AI被大眾利用,而是希望透過民主程序,能夠適當的監管AI,以避免在某些情況下可能造成更大的危害(例如: AI被惡意人士濫用)。

然而,AI治理民主化是一個很大的議題,可能涉及到民主程序的制定,例如,是否要引入選舉制度使公民可直接參與AI的治理?這可能不是我們目前有能力討論的問題。

在此,我嘗試提出一個解決方案。根據王道維教授的AI公共化倡議[2],我認為,除了政府的開放資料應該納入公共資料庫外,資料的標註過程、標註的分類制定、標註的法規遵循、標註的倫理規範等,都應該納入公共化的範圍。所謂的公共化,並不一定是允許任何人隨意取用,而是遵循一套可究責的授權條款,讓企業在開發AI應用時,仍然可以透過公共化授權條款,允許公民參與標註制定的過程,具體作法也許可以參考美國法庭的陪審制度[5]或台灣法庭的國民法官制度[6]。

透過標註流程公共化,可以讓像RLHF這樣的標註流程受到公民的監督,避免標註資料的解釋權完全掌握在私有企業手中,造成企業因技術進步而產生的科技擴權效應。

參考資料:

[1] What Do We Mean When We Talk About “AI Democratisation”? | GovAI Blog
https://www.governance.ai/post/what-do-we-mean-when-we-talk-about-ai-democratisation

[2]如何用AI創造社會共善? ── AI公共化的契機 (發表於「台灣人工智慧行動網」 — 王道維的部落格 — udn部落格
https://blog.udn.com/dawweiwang/148733003

[3]Catastrophic interference — Wikiwand
https://www.wikiwand.com/en/Catastrophic_interference

[4][2203.02155] Training language models to follow instructions with human feedback
https://arxiv.org/abs/2203.02155

[5]陪審制 — Wikiwand
https://www.wikiwand.com/zh-tw/%E9%99%AA%E5%AE%A1%E5%88%B6

[6]國民法官 | 刑訴 | lawsWIKI法律維基
https://lawswiki.one/%E5%88%91%E8%A8%B4/%E5%9C%8B%E6%B0%91%E6%B3%95%E5%AE%98

[7]ChatGPT 昨死機打工仔叫苦連天 網民:已忘了原本怎樣工作 — 香港 unwire.hk
https://unwire.hk/2023/03/21/chatgpt-20/fun-tech/

[8]ChatGPT is down. What we know. | Mashable
https://mashable.com/article/chatgpt-down-even-for-plus-users


作者為清華大學資訊系統與應用研究所博士生

責任編輯/周岐原

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章