誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機-風傳媒

結論先講

隨著AI模型的能力越來越強大，能夠聽懂並執行的人類指令越來越多，當模型回應的好壞是由一小群人類標註者來決定的時候，可能會產生新型態的科技獨裁。然而，透過公共化授權條款，允許公民參與標註流程，避免標註資料的解釋權完全掌握在私有企業手中，可望減少企業因技術進步而產生的科技擴權效應。

[啟動LINE推播] 每日重大新聞通知

最近有人問我：「那個ChatGPT、GPT4那麼厲害，聽說是因為用了RLHF技術，那是不是代表已經不需要人類標註，AI自己就可以學了呢？」我回答道：「不是，還是需要人類標註，只是這個標註跟我們傳統的資料標註不太一樣。」那麼到底是哪裡不同呢？如果還是需要人類標註，這個訓練出來的AI會不會很容易受人類標註者偏見或暗示的影響？

由於每個人都有自己的立場與偏好，由一小群標註人員所標註出來的內容，真的能代表不同的使用者群體嗎？特別是這一小群人還是專為某家公司服務。有沒有可能，這一小群被選中的標註人員，在給AI訓練的標註資料中，放入了偏袒自己的標註訊息，以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士？而這群人將成為AI時代的權貴階級，透過密語或暗示，可以命令AI做一般人的命令無法做到的事情，例如操縱股價之類的？

另一方面，為了不讓資料標註過程被一小群人把持，是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與，讓標註的制定過程更加透明、民主與公共化？

什麼是RLHF?

為了瞭解 ChatGPT 是如何把標註過程私有化，我們要先解釋一下RLHF的運作方式。RLHF 的全名是 Reinforcement Learning from Human Feedback [4]，中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口，什麼是從人類反饋，什麼又是增強式學習？這個新方法跟傳統的AI用標註資料訓練又有甚麼不同？

下圖是在 ChatGPT 官網上可以找到的 RLHF 訓練流程圖，我們可以看到大致分成三步驟：

20230329-在 ChatGPT 官網上可以找到的RLHF 訓練流程圖，可以看到大致分成三步驟。（取自 ChatGPT ）

在 ChatGPT 官網上可以找到的RLHF 訓練流程圖，可以看到大致分成三步驟。（取自 ChatGPT https://openai.com/blog/chatgpt ）

1.蒐集示範資料，透過監督式學習對 GPT3 進行微調。

2.蒐集對比資料，訓練獎勵模型。

3.使用增強式學習，使模型的輸出內容在獎勵模型的引導下，盡可能得到最高分。

看到這裡，你可能已經開始頭大了，一下是監督式訓練，一下是獎勵模型，一下又是增強式訓練……接下來，我會用兩個與日常生活比較貼近的比喻，來解釋監督式學習與增強式學習的概念。

監督式學習

監督式學習很像補習班教學生，反正就給一大堆練習題，叫學生自己做，做完自己對答案，自己訂正，下次再遇到同樣題目要答對。不過，如果只有這樣就太簡單了，學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣，會稍有不同，如果這樣學生還能答對，就代表他學會了。學生若能在考試中答對的越多，就表示他真的從練習題中學到了東西。

增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢？一開始主人只是不斷反覆給牠聽一段人類對話，牠一邊聽，一邊模仿牠聽到的發音。慢慢的，鸚鵡好像會說人話了，會莫名其妙蹦出一句「今天天氣26度」，可能主人給牠聽的是氣象報告的對話。

後來主人決心訓練牠成為氣象主播。於是主人就問牠：「今天天氣如何？」第一次鸚鵡隨便回：「你好嗎？」主人就不理牠，再問一次：「今天天氣如何？」就這樣問了100次，終於有一次鸚鵡回：「今天天氣26度！」主人就獎勵牠，給牠一頓蟲蟲大餐。

後來慢慢地，鸚鵡回應「今天天氣26度！」的機率變高了，從100次回一次，到50次回一次，到10次回一次，到每次必回…。從此以後當主人說：「今天天氣如何？」只要鸚鵡回答：「今天天氣26度！」，主人就給牠一條蟲蟲吃，鸚鵡就很高興。

如此，每當鸚鵡又蹦出了一句甚麼話，主人就訓練牠聽上一句話，然後接下句話。最後看起來，鸚鵡好像真的聽得懂人話了！主人問甚麼，牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。

監督式學習與增強式學習的差異

在補習班的例子中，給學生練習的題目與答案，都是老師給的。套用到監督式AI的訓練過程上，題目就是指原始資料，而答案就是人類對原始資料所做的標註。

學生通常不會自己出題目自己做，因為學生本來就什麼都不知道，既然毫無相關知識，怎麼可能自己出題給自己做呢？所以在監督式學習中的原始資料，必然不是來自於學生自己，而是從老師或其他具有相關知識的人蒐集而來。而題目的答案，當然也是由老師或具有相關知識的人所標註上去的。

然而，在訓練鸚鵡說人話的例子中，主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做，因為很顯然，鸚鵡看不懂題目。但是鸚鵡的模仿能力很強，能夠覆誦聽到的氣象報告內容。

主人是等到牠能覆誦出一段比較完整的句子後，再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式，讓鸚鵡記住，只要當主人說：「今天天氣如何？」回答：「今天天氣26度！」就有獎勵！

套用到增強式學習訓練AI的過程上，一開始給鸚鵡聽的氣象報告內容，相當於未標註的原始資料；而鸚鵡覆誦的結果，相當於模型模仿生成的產出。主人的指令就像是輸入到 ChatGPT 的 prompt 提示詞，而主人對牠產生的回應進行評分，就是獎勵模型（Reward Model）。

為了讓這個獎勵模型能夠對齊（Aligment）人類觀眾的喜好，我們需要找人來給生成的產出做評分。這樣的過程，人類標註的對象是模型生成的產出，而不是未標註的原始資料。

所以，監督式學習與增強式學習最大的差別在於人類標註的對象不同，一個是原始資料，一個是模型生成的產出。

為何 ChatGPT 需要精心設計的 Prompt（提示詞）才能得到人們想要的回應？

讓我們回到鸚鵡的比喻上。

慢慢的，觀眾的要求越來越多，主人不得不訓練牠講得更好更仔細更正確。因此，主人就給牠更詳細的指令：「今天天氣如何？地點是新竹市，適合出遊的程度？」原先，鸚鵡回「今天天氣26度！」就不夠好了，主人不給牠蟲吃。

後來鸚鵡試了很多次，終於有一次回：「新竹市今天天氣26度！適合全家出遊。」主人覺得不錯，就給牠一頓蟲蟲大餐。

主人設想各種觀眾可能會問的指令，讓鸚鵡一條一條去試。到最後，這隻鸚鵡看起來越來越聰明，可以正確回應好多複雜的指令，只是當指令不夠明確的時候，牠還是只能回答：「今天天氣26度！」

ChatGPT就是那隻很厲害的鸚鵡，因為全世界所有的知識都撥放給牠聽過了，牠隨便講一段都好像是真的。之後主人只要訓練牠，看到這個指令，如果牠回了1000次中剛好有一次回得很好，就得到獎勵，慢慢的主人只要下指令，牠就會開始說很多很厲害的話了。

傳統的資料標註與RLHF的人類標註之間的差異

傳統的資料標註是，人們已經蒐集了一大堆原始資料，不管是來自網路、訪談紀錄、使用者資料......等。由於我們已經知道資料中大概包含哪些我們想看或不想看到的東西，並且分好了類別，因此我們可以直接請人來對資料進行標註。

然而RLHF的標註，若用鸚鵡的比喻，就是在當主人下指令，而牠回應出不好的內容時，主人要去判斷回應的內容是否合乎觀眾的標準？所以必須是先有這隻鸚鵡來產生回應，人類標註者再去判斷鸚鵡回應的好壞。

也就是說，我們外人是沒有辦法直接參與他們的標註的，必須要由鸚鵡的主人來請人跟鸚鵡互動，因為鸚鵡只會聽給牠獎賞的人的話。人也只能透過牠產生的錯誤去反饋。你不能給牠一個不是牠產生的東西，例如隨便抓一條法律，告訴牠這是錯的，那是對的，這樣牠不會理你。

就像有一種訓練寵物的方法是：假如你的貓到處亂尿尿，那你就要拿牠尿過的東西給牠聞，然後給牠懲罰，這樣牠才知道錯。你無法跟牠講大道理，因為牠根本聽不懂。一定要拿牠產出的東西教牠才可以。

這樣的後果是，不像傳統的資料標註，標完之後，人們原則上有辦法回去檢視標註資料的正確性，指出哪裡可能帶有標註者的偏見及錯誤；RLHF的標註是不可溯源的，因為標註對象是模型生成的內容，而非原始資料。就算能取得生成的內容，但是由於對內容是採用獎勵模型來評分，只有相對的好壞，沒有絕對的正確。這種對生成內容的評分標註，是在錯誤之間中比較，很可能大多數都是沒有意義的。因此對RLHF標註的追溯，可能難以追回到單一個錯誤發生的標註上，而更可能是散布在成百上千個評分標註中微小的錯誤偏好，累積形成一個巨大的錯誤。

GPT有智慧嗎？

從這個角度來看，其實GPT是沒有智慧的。因為即使是一個人類3歲小孩，你也可以用某種程度講道理的方式讓他知道錯，雖然不見得都能立刻改正。但GPT是，你跟它講錯，它會口頭上回覆你「我知道錯了」，但是它的大腦（GPT的模型參數）並不會因為你跟他說錯就修正。它的「我知道錯了」的反應，其實只是因為觀眾喜歡聽到它這樣說，並非它具有自我修正的能力。如果真的要修正，還是必須透過上述的訓練方式，特別針對這個可能出錯的情境，反覆地給它懲罰，這樣才會更新到它的大腦（GPT參數）裡。

有人問說，只不過跟他講一下錯誤，叫牠修正，有這麼難嗎？是的，就是這麼難。其實這正是目前AI領域中尚未解決的難題之一。

以現在的AI模型來說，如果你想要修正某個答案，就幾乎要重複前面所有的訓練過程，把所有資料重新拿來訓練一遍。這是因為神經網路有個「災難性遺忘」（Catastrophic Forgetting）[3]的嚴重問題，導致沒法保證改了這個不會忘了那個。所有的模型參數都是糾纏在一起的，你不可能只改錯的，而不去動到其它的。你若把其它參數全部固定住，可能就改不動錯的；增加新的參數，原來對的結果可能也跟著變不對。

因此，如果哪一天AI進展到可以只要用說的，講道理告訴它錯，不需要訓練，它就會自己更新參數，那就真的是大突破了！不過，雖然人類應該是可以做到這一點的，但是並不完美，所以人類還是會犯罪、犯錯，會講不聽….。

標註流程私有化的危機

從上面鸚鵡的比喻我們可以知道，如果要訓練一隻鸚鵡，必須要是鸚鵡的主人找人來標註，然而這群人是按照什麼標準決定鸚鵡回應的好壞，以及他們互動過程產生的內容，外人都不得而知。

這將導致一個嚴重的問題。隨著AI模型的能力越來越強大，能夠聽懂並執行的人類指令越來越多，當模型回應的好壞是由一小群掌握標註標準跟範圍的特定組織、企業、科技官僚（technocracy）或獨裁政體來決定時，可能會產生新型態的科技獨裁。

這些被選中的標註者，是新時代的統治階層，他們掌控著AI輸出的內容。而其他大部分的人都深深地依賴著AI生成的內容，甚至到了沒有AI幫助就無法工作[7,8]的地步。

在新時代中，只有科技官僚才具備有解釋標註的權力。如果有人說：「AI這個回應錯了，是標註的人標錯了！」這個人可能會面臨極大的風險，沒有人會相信他，甚至認為他「僭越」了自己的職責，居然敢挑戰AI？

這是不是像極了中世紀天主教廷，只有教皇掌控著解釋聖經的權力，其他人連看一眼聖經的資格都沒有？

由此可見，掌握AI標註資料的解釋權，將可能和具備國家法律解釋權有同等樣的權力，甚至更大。

解方？標註流程的公共化

其實在國外，很早就已經有一些組織在討論關於AI民主化(AI Democratisation)的問題了。根據這篇文章[1]的描述，AI 民主化大致分成四種類型：

AI使用民主化(democratisation of AI use)
AI開發民主化(democratisation of AI development)
AI利益民主化(democratisation of AI benefit)
AI治理民主化(democratisation of AI governance)

其中，前三項AI民主化都可被歸類為目標以增進AI可被大眾利用的可用性（accessibility）為主的提議。只有第四項，AI治理民主化，它的目標主要並不是增進AI被大眾利用，而是希望透過民主程序，能夠適當的監管AI，以避免在某些情況下可能造成更大的危害（例如： AI被惡意人士濫用）。

然而，AI治理民主化是一個很大的議題，可能涉及到民主程序的制定，例如，是否要引入選舉制度使公民可直接參與AI的治理？這可能不是我們目前有能力討論的問題。

在此，我嘗試提出一個解決方案。根據王道維教授的AI公共化倡議[2]，我認為，除了政府的開放資料應該納入公共資料庫外，資料的標註過程、標註的分類制定、標註的法規遵循、標註的倫理規範等，都應該納入公共化的範圍。所謂的公共化，並不一定是允許任何人隨意取用，而是遵循一套可究責的授權條款，讓企業在開發AI應用時，仍然可以透過公共化授權條款，允許公民參與標註制定的過程，具體作法也許可以參考美國法庭的陪審制度[5]或台灣法庭的國民法官制度[6]。

透過標註流程公共化，可以讓像RLHF這樣的標註流程受到公民的監督，避免標註資料的解釋權完全掌握在私有企業手中，造成企業因技術進步而產生的科技擴權效應。

參考資料：

[1] What Do We Mean When We Talk About “AI Democratisation”? | GovAI Blog
https://www.governance.ai/post/what-do-we-mean-when-we-talk-about-ai-democratisation

[2]如何用AI創造社會共善？ ── AI公共化的契機 (發表於「台灣人工智慧行動網」 — 王道維的部落格 — udn部落格
https://blog.udn.com/dawweiwang/148733003

[3]Catastrophic interference — Wikiwand
https://www.wikiwand.com/en/Catastrophic_interference

[4][2203.02155] Training language models to follow instructions with human feedback
https://arxiv.org/abs/2203.02155

[5]陪審制 — Wikiwand
https://www.wikiwand.com/zh-tw/%E9%99%AA%E5%AE%A1%E5%88%B6

[6]國民法官 | 刑訴 | lawsWIKI法律維基
https://lawswiki.one/%E5%88%91%E8%A8%B4/%E5%9C%8B%E6%B0%91%E6%B3%95%E5%AE%98

[7]ChatGPT 昨死機打工仔叫苦連天網民：已忘了原本怎樣工作 — 香港 unwire.hk
https://unwire.hk/2023/03/21/chatgpt-20/fun-tech/

[8]ChatGPT is down. What we know. | Mashable
https://mashable.com/article/chatgpt-down-even-for-plus-users

作者為清華大學資訊系統與應用研究所博士生

責任編輯/周岐原

分頁閱讀

誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機