AI數據「資料標註員」工作內容有什麼?從ChatGPT到抖音內容訓練,一窺隱藏在數據的底層勞動力真相
2023年12月8日。在ChatGPT的Dall-E模型生成的影象前,一台手機螢幕上顯示著OpenAI的圖標。(資料照/美聯社)
編按:從ChatGPT等AI聊天機器人產生的熱門內容,到TikTok、Instagram和YouTube的內容,其實,都是由所謂的「資料處理員」的協助進行整理、標記和分類。不過作者指出,「資料標記工作訓練了AI系統,但AI系統最終將取代訓練它的人類」。
機器中的靈魂
試圖打造出超乎常人的智慧機器並不是什麼新鮮事。在十九至二十世紀之交,猶太人的民間傳說描述過十六世紀末有「魔像」(golem)出現,它原本是泥偶,由布拉格的拉比勒夫(Rabbi Loew)賦予生命,保護當地猶太人不受反猶人士的攻擊。
故事的結局很好預測,魔像抓狂,最後毀在創造者手裡。這個故事和兩樣事物遙相呼應:一是雪萊(Mary Shelley)的創作《科學怪人》(Frankenstein),這部近代的作品協助催生了科幻小說文類;另一是最近新聞熱潮的AI論述,人們似乎愈來愈擔心惡意AI帶來的危險。
今天,真實世界的AI沒那麼有自主性,反而更像一種輔助技術。大概從2009年開始,我們密集使用連網設備和網際網路產生的大量資料,加上不斷增強的晶片運算能力,促成技術突飛猛進。
值得一提的是,這導致了一個AI子類別的興起,那就是機器學習及衍生的深度學習(deep learning),兩者都在教電腦軟體從大量資料中找出統計的相關性,範圍涵蓋文字、影像、程式碼或數字。
找出模式的方法之一是讓AI模型看過數百萬個標記好的範例。這種方法需要人類費心標記所有的資料,這樣電腦才能夠進行分析。沒有這些負責標記的人,做為自動駕駛車和臉部辨識基礎的演算法就與目盲無異,它們沒辦法學習模式。
以這種方式打造的演算法,如今能在醫學、刑事司法、社會福利,以及抵押貸款申請等諸多領域,強化或替代人類的判斷。生成式AI是最新一代的AI軟體,可以產生文字、程式碼和影像。這讓它們能化身為創意助理,協助教師、財務顧問、律師、藝術家和程式設計師共同製作原創的作品。
為了打造AI,矽谷最有名的公司都在自家腹地爭取名額有限的資訊科學人才,支付數十萬美元給剛出爐的博士。
但要利用真實世界的資料來訓練和配置AI,同樣的企業卻找上薩碼這類公司,這類公司擁有的一大票員工具備基本的數位素養,薪資卻不高,且就業狀況不穩定。
薩碼不是全球唯一提供AI訓練服務的公司。Scale AI、Mighty AI(現歸優步所有)、澳鵬(Appen)、蜂巢微(Hive Micro)和艾美瑞特(iMerit)等新創公司,以及埃森哲(Accenture)和威普羅(Wipro)等較傳統的資訊科技公司,都是這個不斷壯大產業的一部分,據估計到了2030年,這份產業的價值將達到一百七十億美元。
AI供應鏈中的寶貴人力
逃離家園的敘利亞醫師訓練的醫療軟體能協助英國醫師診斷前列腺癌;在經濟衰退嚴重的委內瑞拉,失業的大學畢業生幫電子商務網站分類流行商品;在加爾各答貧窮的穆斯林社區梅蒂亞布魯茲(Metiabruz),赤貧的婦女幫亞馬遜智慧型喇叭的語音片段加上標記。他們的工作揭露了一個幾乎眾人皆知的祕密:所謂的人工智慧系統無法獨立「學習」,這項技術的驅動需要人類,而且是數百萬名的人類。在全球的AI供應鏈裡,資料處理員是寶貴的人力環節。
這股勞動力大部分是分散式的,而且組成分子多是社會中最脆弱的工人,包括弱勢青年、扶老攜幼的婦女、少數族群,以及移民和難民。AI公司及合作的外包廠商都說他們的目標是要把這些社群納入數位革命裡,無論這些人的生活有多麼不穩定,都會提供他們安全穩定和合乎倫理的工作。但我後來發現,資料處理員就跟工廠工人一樣不安穩,他們的勞力付出大多不為人知,目前仍是AI產業裡被低估的基礎。
隨著這群人從暗處現身,記者和學者開始了解這些分散在全球各地的工人如何影響我們的日常生活,從ChatGPT等AI聊天機器人產生的熱門內容,到我們滑抖音(TikTok)、Instagram和YouTube時看到的內容,以及線上購物時瀏覽到的物品、我們駕駛的車輛,甚至我們吃到的食物,都是藉由資料處理員的協助進行整理、標記和分類。
米切利是阿根廷的研究人員,目前在柏林以民族誌的角度研究開發中國家的資料工作。她剛開始做研究的時候,找不到任何有關AI勞工的親身經驗,也不知道這些人的真實身分和工作樣貌。她說:「身為社會學家,我覺得這道鴻溝很巨大,沒有多少人真正了解這些人。他們到底是誰、他們如何執行工作、他們的工作實務涉及哪些層面,還有他們處於什麼樣的勞動條件?」
米切利是對的,因為很難找到一家公司,能讓我在最少干預的情況下接觸他們的資料處理員。營業祕密通常會以保密協議的形式寫進合約裡,像是禁止員工直接聯絡客戶,以及公開揭露客戶的名稱。這些要求通常來自客戶而不是外包公司,例如薩碼公司的客戶Meta,它是臉書(Facebook)的母公司,就會要求資料處理員簽訂保密協議。通常,處理員可能根本不知道客戶是誰、不了解他們正在開發哪種演算法系統,也不清楚世界其他地方的同行從事同樣的工作能拿到多少報酬。
低薪、保密、從弱勢社群榨取勞力,像薩瑪這類公司的安排,其實是往不平等傾斜。畢竟,這終究是平價的勞動力。提供就業機會給少數族群和貧民窟青年,或許在某種程度上是一種賦權與提升,但這些資料處理員也相對廉價,而且幾乎沒有相關的談判能力,或是反抗的手段和資源。
甚至資料標記工作的目標也讓人感覺很壓榨,因為這份工作訓練了AI系統,但AI系統最終將取代訓練它的人類。然而在這兩年的時間裡,我採訪過數十名資料處理員,沒有人意識到訓練替代者的後果,他們領薪水所做的工作加速自己的淘汰。
米切利告訴我:「這群人太依賴這些工作,以致變得對客戶言聽計從。他們的心態已經轉變,不去想自己在做的事情是否有意義、是否在道德上有爭議,只會去想客戶可能要什麼。」AI研發是一項蓬勃發展的業務,資料標記產業裡的公司都爭相降價,以一份任務幾美分的價錢提供勞力給大型企業和當紅新創公司。「人們必須知道:科技業的發展受益於這些廉價勞力。」
作者介紹|穆吉亞
《金融時報》AI領域編輯,負責AI和其他新興技術的報導。因走訪世界各地,為《連線》、《華盛頓郵報》、《新聞週刊》和《每日電訊報》等媒體撰寫有關尖端技術人物、新創公司和企業,以及科學和科技對社會影響的文章,屢獲殊榮。經常出現在廣播電台和電視節目,包括BBC的旗艦節目《今日》和Sky News新聞頻道。曾於TED講述個人數據遭盜用的經歷,吸引近4000萬人觀看。
更多新聞請搜尋🔍風傳媒
因為你,我們得以前進,你的支持是我們的動力
更多文章
咖啡渣、果皮是廚餘還是一般垃圾?環保局曝正確分類,小心丟錯罰6000元吃剩下的食物想丟廚餘,但其實不是所有食物都能丟廚餘,還是有一些剩食只能丟一般垃圾。除此之外,廚餘又分為生廚餘也就是要丟進綠桶的堆肥廚餘,還有熟廚餘也就是要丟進藍桶的養豬廚餘。食物種類百百種,該怎麼正確分類,本文一次看懂。特別提醒大家,未做好垃圾分類,將可依違反廢棄物清理法第12條處新台幣1200元到6000元罰鍰。
過年到底該誰洗碗?一個美國女人的偉大發明,徹底打破上千年來的家事規則齒輪讓我們能夠改變力的方向和大小,久而久之,這使得工程師得以開發出一整套技術。蒸汽火車便是透過齒輪傳動系統,利用引擎裡的燃料來轉動車廂的車輪;在手錶裡頭,受到同一動力來源驅動的大大小小的齒輪,會以不同的速度轉動錶盤上的秒針、分針和時針,使我們能更精準地判讀時間;我們會在開車時靠換檔來協助爬坡、在維持較高速度的同時減少油耗,以及阻止汽車失控滾下山坡;工廠能有跟......
阿將伊崮喜瀾觀點:AI競賽啟示錄—吹牛冠軍VS.豬虎策略當ChatGPT剛出場,憑藉精心設計的示範影片和絕佳的文字生成功能,硬是讓SamAltman站上科技舞台的C位。他的口才就像生化武器,堪比好萊塢的宣傳片,讓人誤以為未來已完全由OpenAI接管。Altman開始吶喊「我們需要數兆美元搞晶圓廠,因為我們是唯一能拯救世界的人類文明!」—乍聽之下,彷彿他已掌握打開未來之鑰(陳建鈞,2023.11.18)。
呂政璋觀點:真假AI革命─中國DeepSeek挑戰美國科技霸權的背後DeepSeek的崛起熱潮在短短不到一週內掀起巨大討論,既有正面評價,也伴隨著陰謀論的質疑,這一切都反映出AI技術霸權的競爭態勢。在美國對晶片進行嚴格管制的背景下,外界對於中國公司如何獲取輝達(Nvidia)晶片尚存疑問。然而,DeepSeek憑藉極低成本打造出爆紅的AI應用,不僅震撼市場,更在全球股市引發類似「黑天鵝」的事件。
張哲銘觀點:從軍中爆發退職潮看國軍招募人員的困境2024年9月2日台視新聞網報導士官兵爆「離職潮」,國防部預算書指出,114年志願役士官兵的「預算員額」剩下16萬749人,從113年到114年,預計有5486人離開軍隊,等於是11個聯兵營人力突然蒸發,志願役士官兵「預算員額」剩下16萬749人。
鄭宗記觀點:正視以偏概全的民調報導某些民調機構或媒體在公布調查結果時,將支持或贊同的比例,以一個百分點約等於19.5萬人,來換算全台對某人物或事件的支持、贊同的總人數。例如某調查結果38.8%的民眾認為柯文哲沒有獲得司法公平審理,因此標題呈現「超過750萬人為柯文哲叫屈」;再則,某調查顯示贊同賴清德處理國家大事的方式,一個月內大幅上揚8.5個百分點,標題為「賴清德支持者回流一百六十六萬人」。
李照興專文:因為害怕失去更要記得─當香港流行變成一種身分當身分出現之時,它卻首先是以正陷於消失的形式呈現。這是主體性的矛盾所在,用最顯淺的言語形容,那正就是「因為害怕失去,才會更要記得」,越是理所當然擁有的東西,越顯得不自覺。如空氣。主體身分是這樣的一種無意識,非刻意的產物,當你是自信地擁有著某個身分之時,你是不需多講這個身分的,身分就如呼吸般自然散發。似乎只有在身分模糊之際,何謂主體變得模稜兩可之時,內心對身分的呼喚才變得越發明顯。香港,正是這個曾說出口又收回去的身分。從而展現的香港主體性,同樣一度是不用掛於口邊,但風格突出界線分明。一看就知,像我們常掛在口邊的:「這個,好香港」。
黃于洋專文:我在塞內加爾,買了一瓶洗髮精我在塞內加爾買了一瓶大瓶的洗髮精,上一次這樣做的時候是四年前在西奈半島。四年前夏天的一個晚上,我睡在沙灘上,腳趾頭隱約還能觸碰到海水,腦中想著關於玫瑰與狐狸的故事,還來不及數完流星就掉進夢裡。夜色正黑時醒了過來,眼睛尚未適應黑暗,只聽到海面傳來噗通噗通的聲音,我手拍打著沙地,試著找到不曉得藏在哪裡的火柴,嚓一聲點燃了蠟燭,與此同時,喉嚨發緊,叫不出聲也說不出話。就在幾公尺之外,三隻海豚正在我面前迴圈跳躍,我直盯盯地看著牠們,發不出一點聲音,只能用手拍拍身旁的人,他們醒了過來,但我們一句話也沒有說,只是靜靜地坐在沙灘上,直到牠們離開。
觀點投書:政府補助公視23億是小錢?真的不食人間煙火 !最近,一則引人發笑的新聞引發關注。經常挑起爭議的社運人士徐世榮在其臉書發文稱:「如果不是國民黨要刪光公視預算,他還不知道原來公視預算『只有』23億元。」如此輕描淡寫的語氣,讓人不禁質疑他是否活在象牙塔,未對民眾的真實感受有所體察。對絕大多數納稅人而言,23億元絕非一筆小數目。
觀點投書:中德經濟依賴與統戰博弈─擺脫困境還是重蹈覆轍?德國與中國之間的經濟關係在過去數十年間迅速深化,但同時也帶來了對中國市場的高度依賴。2021年,時任德國總理蕭茲承諾減少這種依賴,試圖在多極化的全球經濟中尋求更多戰略自主。然而,受制於中國市場的吸引力和德國企業的深度投資需求,這一目標長期停滯,直到2024年才出現轉機。
觀點投書:臺灣拋橄欖枝,觀光回歸非政治化近年來兩岸觀光往來因政治因素多次中斷與波折,影響不僅限於觀光業,更對兩岸交流氛圍造成衝擊;交通部長陳世凱針對中國踩線團可能來臺表示,臺灣一直秉持對觀光開放的態度,並期望雙方能透過互相尊重的小兩會機制進行溝通,讓觀光回歸單純的民間交流;本文將分析陸客來臺的影響、臺灣過去對陸客的優惠措施,以及如何在互相尊重的基礎上深化兩岸關係,探討未來兩岸觀光合作的可能性。
觀點投書:穀物與國家,誰才是人類文明的主宰?當我們追溯人類歷史的足跡,國家似乎是文明進程的終極形態,農業革命則是通往國家的必經之路。然而,JamesC.Scott在《反穀:穀物是食糧還是政權工具?人類為農耕社會付出何種代價?》一書中,對這一線性敘事提出了詰問。他指出,穀物不僅是一種食物,更是國家形成的基石,而國家的出現並非純粹的進步,反而可能是人類自由的犧牲品。這樣的觀點讓我們重新審視中國的封建體制起源,尤其是以「家國同構」為核心的政治哲學,並將其與Scott的「國家形成理論」進行比較。
尋獲30具遺體:美航龐巴迪客機與黑鷹在華府空中相撞墜毀,警消判定「兩機67人」恐無人生還隸屬於美國航空(AmericanAirlines)旗下、專責營運支線航班的PSAAirline,稍早傳出一架龐巴迪CRJ700型噴射機(BombardierCRJ700),在華盛頓特區發生空中相撞事故墜毀,此傳聞已經獲得聯邦航空總署(FAA)證實。根據CBS電視台掌握的消息,搜救人員在墜毀現場已尋獲至少30具遺體,華府消防隊在稍早簡報中向美國媒體坦言,按照現場判定,美航客機64人與陸軍黑鷹直升機的3名官兵,恐怕都已經全數罹難。
收藏玩家搶購!「秋爽」用愛畫出萌寵年味 創業後盾雄挺利以細膩手繪風格聞名的高雄青創品牌「秋爽寵物插畫事務所」,每年春節都會推出限量賀歲周邊,其中包括54款貓狗圖案的春聯與紅包袋,吸引收藏玩家下訂搶購,立志集滿12生肖系列。而高市青年「雄挺利」利息補貼,更加助力「秋爽」參與展覽推廣創意,堅實的後盾讓創業夢想逐步踏實,現已成為高雄文創品牌的亮眼代表。
國漫館「漫畫行春」 三大主題活動 陪你過新年想要感受不一樣的新年氣氛嗎?文化部配合「第15屆金漫大獎《一桿秤仔(漫畫版)》特展」開展,特別在國家漫畫博物館東側園區舉辦「2025漫畫行春系列活動」。從1月18日起,連續三個週末,精彩活動輪番上陣,帶給民眾充滿"台漫" 風味的新春體驗。
侯友宜初二發寵物小福袋 淡水紅毛城變成「毛孩城」太可愛了吧!淡水紅毛城在大年初二這天變成「毛孩城」,許多民眾帶著寵物來古蹟走春,住在北投的陳小姐特地帶著5隻愛犬共襄盛舉,以行動支持新北市寵物友善政策,還領到侯友宜贈送的寵物小福袋,直呼非常幸運!
鍾明軒反擊八炯「要他公開未剪輯影片」!她一看「這4字」秒傻眼:不是入黨了吧?百萬反共YouTuber「八炯」去(2024)年12月公佈自製的「中國統戰紀錄片」邀請原本挺共、如今反共的網紅歌手「閩南狼」陳柏源揭露中國如何透過網紅統戰,更在影片中聯繫上中國媒體「海峽導報」、對方稱能聯繫網紅鍾明軒一事,而讓影片曝光後掀起全台關注。不料,鍾明軒昨(29)日更公開最新影片反擊八炯,直批對方影片惡意剪輯,更要求八炯將未經剪輯的完整版影片公之於眾。
OpenAI開戰DeepSeek偷技術 專家卻曝「這美企」才是最大贏家:大家皆大歡喜中國新創公司深度求索(DeepSeek)發表的語言模型號稱成本低廉,表現卻不輸各大龍頭企業的生成式AI,但其研發過程也爆出侵權盜用其他公司技術的嫌疑,開發ChatGPT的OpenAI也宣布,已掌握DeepSeek盜用自家技術的證據。對此,財經作家狄驤在臉書指出,DeepSeek與OpenAI可以說是「各取所需、皆大歡喜」,更透露最大贏家是這家企業。
有沒有對象啊?過年最怕長輩「6大靈魂拷問」 第1名這話題網友全崩潰過年團聚許久不見的長輩們總免不了關心晚輩的生活近況,不過熱切的關心中,有時也會夾雜著令人尷尬的提問,也讓許多人感到難以招架。「SocialLab社群實驗室」透過「OpView社群口碑資料庫」追蹤近1年「過年最怕長輩問的問題」話題的網路聲量表現,其中感情方面的話題最受長輩關心,尤其這一個提問直接榮登網友們最怕被問到的冠軍,認為「這些過度關心,每年都把人壓得喘不過氣」。
簽約至今等了5年!耗資近30億美元,保加利亞空軍將迎接第一架F-16V戰機東歐國家保加利亞分別在2019與2022年,砸下合計30億美元(約新台幣985.5億元)的鉅額經費,向美國採購16架最新型F-16V(F-16Block70)戰機,在等待將近5年多時間後,第一架屬於該國空軍新式美規戰機,即將在31日正式於洛克希德馬丁(LockheedMartin)南卡羅來納州格林維爾(Greenville)工廠進行交機儀式,保加利亞防長扎普里亞諾夫(AtanasZapryanov)為此專程前往美國迎接,參與並見證這個重要現代化里程碑。包含這架交付的新機,保加利亞預計在今年4月,將迎回2架F-16V戰機回到自家基地。