你輸入reCAPTCHA驗證碼,竟是在幫忙翻譯古書!他曝:其實我們都是免錢的Google御用人工智能訓練師

2021-03-08 12:22

? 人氣

reCAPTCHA 驗證碼系統,透過讓用戶輸入圖片上扭曲、變形的文字或數字來判定人類用戶身份。(圖/取自Pexels)

reCAPTCHA 驗證碼系統,透過讓用戶輸入圖片上扭曲、變形的文字或數字來判定人類用戶身份。(圖/取自Pexels)

我們常需要輸入驗證碼來證明自己是貨真價實的人類,但這個為難機器人的功能,最後卻總是為難到自己。

★一手掌握熱門話題

對著螢幕裡扭曲的文字研究了半天,你還是認不出來那到底是h還是b,只能亂猜一通,期待下一組圖片會更好。

在這個時候,你開始懷疑起自己現代智人的身分,也開始思考:「花那麼多時間輸入驗證碼,到底有什麼意義?」其實,你花在驗證碼的這些時間並沒有白白浪費,反而對人類的文化事業和未來的科技發展做出了貢獻喔!

驗證碼的起源 

在2000年的時候,大多數人都還在用E-Mail,當時最令人困擾的不是超低的網速,而是漫天飛舞的垃圾郵件,當時有一群人刻意寫出能夠不斷註冊帳號的程式,好讓他們用木馬程式和壯陽藥廣告塞滿你的信箱。

除了用戶不堪其擾外,當時最大的受害者是免費提供E-mail註冊的的 Yahoo,他的員工每天要加班刪除濫發郵件的帳號,卻還是趕不上機器註冊的速度。

毫無辦法的Yahoo 找到了一個叫做路易斯(Luis von Ahn)的電腦天才,他提出了一個叫做CAPTCHA的解決方案,將一些經過扭曲和汙染的文字放在註冊介面讓人類可以輕鬆的辨認但機器卻看不清楚,藉此阻擋程式碼大量註冊垃圾帳號的現象。

人人都是古書翻譯家 

有了CAPTCHA驗證碼系統之後,雖然垃圾郵件減少了,但是路易斯並沒有因此而滿足,他發現有當時許多組織致力於將實體書掃描成電子檔案避免這些文化結晶因為天災人禍而消失。但很多古書因為污漬、褪色或是筆跡潦草等原因,沒辦法被機器有效的識別。

路易斯想起了自己的驗證碼系統,同樣都是識別文字,如果能讓用戶在使用驗證碼的時候能順便識別古書,那不是很棒嗎?

於是,一個叫做 reCAPTCHA 的新版系統誕生了。

reCAPTCHA顯示出來的驗證碼就像圖片裡的一樣,他會給出兩個單字,左邊的單詞 fiery 是電腦能夠識別的單字,是用來測試你是不是真人或來亂的

而右邊的單字則來自於電腦無法識別的古書內容。如果有十位用戶都輸入了一樣的答案,那麼這個答案就會被當作是正確的,並將答案回傳給書籍電子化的組織。

也就是說,右邊的那個字,在你輸入答案之前,世界上沒有任何人知道他實際是甚麼單字,你以為你是在解題,實際上是在創造答案

透過這個方法,reCAPTCHA 至今已經電子化了兩千五百萬本書,人們在不知情下,充滿抱怨和憤怒的幫忙保存了許多珍貴的文化瑰寶。

驗證碼(圖/作者提供)
(示意圖/作者提供)

請叫我人工智能訓練師 

不過大家應該也注意到了,這種輸入單字的驗證碼近年來越來越少,取而代之的是各種「選出圖中含有XX的照片」,這又是怎麼回事呢?

其實這還是同一套系統,在2012年的時候Google收購了reCAPTCHA,不過他們對古書沒有太大的興趣,而是把文字換成了難以辨識的門牌街景圖片,所以總會有人看到驗證圖片覺得眼熟:「這怎麼看起來好像我家啊?」

對的,那還真的很可能就是你家。

而辨識這些街景圖片也不是吃飽撐著,而是為了訓練人工智能,告訴他們正常的人類是怎麼想的,透過數億人對人工智能的熱心調教,GOOGLE研發的無人駕駛汽車Waymo已經在自動駕駛領域大幅領先其他公司。

雖然這相當於大家在幫GOOGLE打工,還沒有錢領,但往好處想,至少你以後可以在履歷上增加一項工作經歷:「GOOGLE御用人工智能訓練師」祝大家求職順利。

本圖/文經授權轉載自歐美亂供

責任編輯/連珮妤

關鍵字:
風傳媒歡迎各界分享發聲,來稿請寄至 opinion@storm.mg

本週最多人贊助文章