誰該擁有資料解釋權?從ChatGPT訓練與AI社會的未來,談標註流程私有化危機

2023-04-14 18:20
增強式學習比較像教鸚鵡說人話,而ChatGPT就是那隻很厲害的鸚鵡。(來自Midjourney)
增強式學習比較像教鸚鵡說人話,而ChatGPT就是那隻很厲害的鸚鵡。(來自Midjourney)

結論先講

隨著AI模型的能力越來越強大,能夠聽懂並執行的人類指令越來越多,當模型回應的好壞是由一小群人類標註者來決定的時候,可能會產生新型態的科技獨裁。然而,透過公共化授權條款,允許公民參與標註流程,避免標註資料的解釋權完全掌握在私有企業手中,可望減少企業因技術進步而產生的科技擴權效應。

最近有人問我:「那個ChatGPT、GPT4那麼厲害,聽說是因為用了RLHF技術,那是不是代表已經不需要人類標註,AI自己就可以學了呢?」我回答道:「不是,還是需要人類標註,只是這個標註跟我們傳統的資料標註不太一樣。」那麼到底是哪裡不同呢?如果還是需要人類標註,這個訓練出來的AI會不會很容易受人類標註者偏見或暗示的影響?

由於每個人都有自己的立場與偏好,由一小群標註人員所標註出來的內容,真的能代表不同的使用者群體嗎?特別是這一小群人還是專為某家公司服務。有沒有可能,這一小群被選中的標註人員,在給AI訓練的標註資料中,放入了偏袒自己的標註訊息,以至於AI生成的內容更偏袒標註員或其所處公司的利益相關人士?而這群人將成為AI時代的權貴階級,透過密語或暗示,可以命令AI做一般人的命令無法做到的事情,例如操縱股價之類的?

另一方面,為了不讓資料標註過程被一小群人把持,是否有可能開放像OpenAI這樣的私有企業的資料標註過程給一般民眾參與,讓標註的制定過程更加透明、民主與公共化?

什麼是RLHF?

為了瞭解 ChatGPT 是如何把標註過程私有化,我們要先解釋一下RLHF的運作方式。RLHF 的全名是 Reinforcement Learning from Human Feedback [4],中文直譯是「從人類反饋的增強式學習」。這名稱聽起來有點繞口,什麼是從人類反饋,什麼又是增強式學習?這個新方法跟傳統的AI用標註資料訓練又有甚麼不同?

下圖是在 ChatGPT 官網上可以找到的 RLHF 訓練流程圖,我們可以看到大致分成三步驟:

20230329-在 ChatGPT 官網上可以找到的RLHF 訓練流程圖,可以看到大致分成三步驟。(取自 ChatGPT )
在 ChatGPT 官網上可以找到的RLHF 訓練流程圖,可以看到大致分成三步驟。(取自 ChatGPT https://openai.com/blog/chatgpt )

1.蒐集示範資料,透過監督式學習對 GPT3 進行微調。

2.蒐集對比資料,訓練獎勵模型。

3.使用增強式學習,使模型的輸出內容在獎勵模型的引導下,盡可能得到最高分。

看到這裡,你可能已經開始頭大了,一下是監督式訓練,一下是獎勵模型,一下又是增強式訓練……接下來,我會用兩個與日常生活比較貼近的比喻,來解釋監督式學習與增強式學習的概念。

監督式學習

監督式學習很像補習班教學生,反正就給一大堆練習題,叫學生自己做,做完自己對答案,自己訂正,下次再遇到同樣題目要答對。不過,如果只有這樣就太簡單了,學生可以把題目背起來但還是什麼都不會。因此考試不會出跟練習題一模一樣,會稍有不同,如果這樣學生還能答對,就代表他學會了。學生若能在考試中答對的越多,就表示他真的從練習題中學到了東西。 (相關報導: 限時2天優惠!證件含這2碼享星巴克買一送一,新品「鹹焦糖可可瑪奇朵」只要半價 更多文章

增強式學習

增強式學習比較像教鸚鵡說人話。怎麼樣教鸚鵡說人話呢?一開始主人只是不斷反覆給牠聽一段人類對話,牠一邊聽,一邊模仿牠聽到的發音。慢慢的,鸚鵡好像會說人話了,會莫名其妙蹦出一句「今天天氣26度」,可能主人給牠聽的是氣象報告的對話。

因為你,我們得以前進,你的支持是我們的動力
更多文章
華爾街日報》中共企圖改寫集體抗疫史,重塑國人關於新冠的痛苦記憶
爭議音檔公開!共機嗆我空軍「有種開火不然挨揍」?  律師嗆造謠!軍事粉專8百字聲明回擊
巴菲特:美國還有銀行會倒 但存戶存款絕對安全
ChatGPT竟能預測股價!專家僅輸入「金融新聞解析」 AI秒精準給出隔天走勢
限時3天!黑色情人節優惠來了,全家美式咖啡買一送一、7-11卡布奇諾13杯只要520元
台灣民意基金會民調》一面倒!逾6成國人挺「蔡麥會」 僅這群人反對過半
從小到大在校學英文,出了社會卻無法學以致用!他揭台人教育盲點,別再這樣教孩子
賴清德兩岸論述這詞有深意?日學者點評「他非常謹慎」:已搶占選戰先機
回台灣最後機會倒數!靜宜女大生「留戀緬甸不返台」 任職公司企業主身分曝光
看房子送雞蛋!建商出奇招拉抬建案,3月房市熱度大幅上揚
可惡行徑全都錄!乘客爛醉爆揍司機 連環揮近20拳後搶手機!他哀號:為何這樣對我…
好天氣要沒了!周末鋒面通過「2地區雨彈狂炸」,下波變天時間點曝光
台灣綠色能源新創產業,要如何吸引石油巨擘殼牌願意投資
靜宜女大生同學「揭私下超邊緣狀態」:氣場超怪!班上竟有9成同學沒注意過她
古代將士打仗,為何大多都穿紅色軍服?電視劇沒講的3大原因,竟然有保護作用
一邊制裁一邊買》歐盟增加進口俄羅斯液化天然氣 《路透》:考驗擺脫俄國化石燃料的決心
給同事留下壞印象怎麼辦?專家曝職場溝通技巧:第一分鐘超重要
中國貿易壁壘調查報復「蔡麥會」?郭正亮曝時機微妙:恐牽動ECFA項目
營收大衰退!台股3大慘業曝光
幕後》壓制柯文哲分割年輕選票 賴清德祭出「賴式戰法」
挺立舒攜手白字天后 《疫起》包場挺醫護
張善政攜手臺灣連鎖加盟促進協會 打造桃園世界級創業城市
雲豹能源受邀Taiwan CEO Week 波克夏商模受青睞
綠營「堅偉之爭」賴清德難收拾?名嘴驚梗圖「踩底線」:比芯費大戰更難看
「根本武統擺陣!」郭正亮示警「中共玩真的」:國軍東部戰力計畫沒用了
「賴清德是跟習近平在選?」郭正亮酸3大承諾:還以為要挑戰蔡英文的專制
風評:兒戲大法官,調戲憲法
揭仲專欄:共軍環台警巡和演習透露什麼訊息
張良任觀點:美國海外軍事基地知多少?
石之瑜觀點:國軍何不也穿越海峽中線?
蘇育平觀點:為兩岸緊張降溫提供幾點淺見─
約會別聊最近看了什麼劇!專家曝3大話題,特別能增加熟悉感,提升被喜歡的機率
汪志雄觀點:民粹主義敲響了西式民主的喪鐘
住家裡不用繳房租、三餐都能省下!兩派網友戰翻,過來人曝最大缺點「寧可用錢換自由」
夏珍專欄:許銘春的錯,不在拍陳其邁馬屁
觀點投書:背棄勞工的蔡政府─難得如此認同一位綠委的問政!
加拿大關注境外勢力干預選舉問題 國會國防外交重要議員汲取台灣經驗
觀點投書:朱立倫的葫蘆裡到底賣什麼藥
葉家譽觀點:拜登執政的通膨降低法
周永秦觀點:中國人的戰爭方式,西方難解
觀點投書:馬前總統訪陸成果豐碩,國民黨兩岸論述更值參考
觀點投書:信任是朝野溝通的本質,尊重是政治文化的價值
觀點投書:王世堅其實「不堅」
敢對蔣宋美齡人事請託說不,唯嚴家淦之命是從:《海關中國》選摘(2)
公司OL女神竟被「8+9男友接下班」 仰慕者整排心碎…他揭關鍵3點小資男難贏
習近平不見馬英九,為何又為他延後「環台軍演」?日經:中共誤認「馬英九牌」還有用
全台1地區大腸癌盛行率第一!營養師曝8大NG飲食千萬別吃,多吃這些食物有效防癌
台灣首份兒童死亡原因回溯分析報告 「拼」出孩子到底怎麼死的