誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機-風傳媒

誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機

增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢？一開始主人只是不斷反覆給牠聽一段人類對話，牠一邊聽，一邊模仿牠聽到的發音。慢慢的，鸚鵡好像會說人話了，會莫名其妙蹦出一句「今天天氣26度」，可能主人給牠聽的是氣象報告的對話。

後來主人決心訓練牠成為氣象主播。於是主人就問牠：「今天天氣如何？」第一次鸚鵡隨便回：「你好嗎？」主人就不理牠，再問一次：「今天天氣如何？」就這樣問了100次，終於有一次鸚鵡回：「今天天氣26度！」主人就獎勵牠，給牠一頓蟲蟲大餐。

後來慢慢地，鸚鵡回應「今天天氣26度！」的機率變高了，從100次回一次，到50次回一次，到10次回一次，到每次必回…。從此以後當主人說：「今天天氣如何？」只要鸚鵡回答：「今天天氣26度！」，主人就給牠一條蟲蟲吃，鸚鵡就很高興。

如此，每當鸚鵡又蹦出了一句甚麼話，主人就訓練牠聽上一句話，然後接下句話。最後看起來，鸚鵡好像真的聽得懂人話了！主人問甚麼，牠就接下句。但是鸚鵡心裡想的其實只有蟲蟲大餐。

在補習班的例子中，給學生練習的題目與答案，都是老師給的。套用到監督式AI的訓練過程上，題目就是指原始資料，而答案就是人類對原始資料所做的標註。

學生通常不會自己出題目自己做，因為學生本來就什麼都不知道，既然毫無相關知識，怎麼可能自己出題給自己做呢？所以在監督式學習中的原始資料，必然不是來自於學生自己，而是從老師或其他具有相關知識的人蒐集而來。而題目的答案，當然也是由老師或具有相關知識的人所標註上去的。

然而，在訓練鸚鵡說人話的例子中，主人並不是給鸚鵡一大堆發音練習題叫鸚鵡自己做，因為很顯然，鸚鵡看不懂題目。但是鸚鵡的模仿能力很強，能夠覆誦聽到的氣象報告內容。

主人是等到牠能覆誦出一段比較完整的句子後，再訓練牠在聽到主人指令後覆誦該句子。透過以蟲蟲大餐為獎勵的方式，讓鸚鵡記住，只要當主人說：「今天天氣如何？」回答：「今天天氣26度！」就有獎勵！

套用到增強式學習訓練AI的過程上，一開始給鸚鵡聽的氣象報告內容，相當於未標註的原始資料；而鸚鵡覆誦的結果，相當於模型模仿生成的產出。主人的指令就像是輸入到 ChatGPT 的 prompt 提示詞，而主人對牠產生的回應進行評分，就是獎勵模型（Reward Model）。

為了讓這個獎勵模型能夠對齊（Aligment）人類觀眾的喜好，我們需要找人來給生成的產出做評分。這樣的過程，人類標註的對象是模型生成的產出，而不是未標註的原始資料。

1 2 3 4 5 6 全文閱讀