誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機-風傳媒

誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機

結論先講

隨著AI模型的能力越來越強大，能夠聽懂並執行的人類指令越來越多，當模型回應的好壞是由一小群人類標註者來決定的時候，可能會產生新型態的科技獨裁。然而，透過公共化授權條款，允許公民參與標註流程，避免標註資料的解釋權完全掌握在私有企業手中，可望減少企業因技術進步而產生的科技擴權效應。

[啟動LINE推播] 每日重大新聞通知

最近有人問我：「那個ChatGPT、GPT4那麼厲害，聽說是因為用了RLHF技術，那是不是代表已經不需要人類標註，AI自己就可以學了呢？」我回答道：「不是，還是需要人類標註，只是這個標註跟我們傳統的資料標註不太一樣。」那麼到底是哪裡不同呢？如果還是需要人類標註，這個訓練出來的AI會不會很容易受人類標註者偏見或暗示的影響？

由於每個人都有自己的立場與偏好，由一小群標註人員所標註出來的內容，真的能代表不同的使用者群體嗎？特別是這一小群人還是專為某家公司服務。有沒有可能，這一小群被選中的標註人員，在給AI訓練的標註資料中，放入了偏袒自己的標註訊息，以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士？而這群人將成為AI時代的權貴階級，透過密語或暗示，可以命令AI做一般人的命令無法做到的事情，例如操縱股價之類的？

另一方面，為了不讓資料標註過程被一小群人把持，是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與，讓標註的制定過程更加透明、民主與公共化？

什麼是RLHF?

為了瞭解 ChatGPT 是如何把標註過程私有化，我們要先解釋一下RLHF的運作方式。RLHF 的全名是 Reinforcement Learning from Human Feedback [4]，中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口，什麼是從人類反饋，什麼又是增強式學習？這個新方法跟傳統的AI用標註資料訓練又有甚麼不同？

下圖是在 ChatGPT 官網上可以找到的 RLHF 訓練流程圖，我們可以看到大致分成三步驟：

20230329-在 ChatGPT 官網上可以找到的RLHF 訓練流程圖，可以看到大致分成三步驟。（取自 ChatGPT ）

在 ChatGPT 官網上可以找到的RLHF 訓練流程圖，可以看到大致分成三步驟。（取自 ChatGPT https://openai.com/blog/chatgpt ）

1.蒐集示範資料，透過監督式學習對 GPT3 進行微調。

2.蒐集對比資料，訓練獎勵模型。

3.使用增強式學習，使模型的輸出內容在獎勵模型的引導下，盡可能得到最高分。

看到這裡，你可能已經開始頭大了，一下是監督式訓練，一下是獎勵模型，一下又是增強式訓練……接下來，我會用兩個與日常生活比較貼近的比喻，來解釋監督式學習與增強式學習的概念。

監督式學習

監督式學習很像補習班教學生，反正就給一大堆練習題，叫學生自己做，做完自己對答案，自己訂正，下次再遇到同樣題目要答對。不過，如果只有這樣就太簡單了，學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣，會稍有不同，如果這樣學生還能答對，就代表他學會了。學生若能在考試中答對的越多，就表示他真的從練習題中學到了東西。

1 2 3 4 5 6 全文閱讀

誰該擁有資料解釋權？從ChatGPT訓練與AI社會的未來，談標註流程私有化危機

結論先講

什麼是RLHF?

監督式學習

限時2天優惠！證件含這2碼享星巴克買一送一，新品「鹹焦糖可可瑪奇朵」只要半價

2023房貸利息可以抵稅嗎？專家教3個買房節稅最佳方法，最多省下30萬元

逾2.6萬機台可領！普發6000元ATM地圖上線，LINE一鍵查詢最近的地點

台灣冠居亞洲四小龍！近5年固定投資平均成長8.2%，今年恐將微幅衰退