你輸入驗證碼，竟是在幫忙翻譯古書！他曝：其實我們都是免錢的Google御用人工智能訓練師 | 歐美亂供

我們常需要輸入驗證碼來證明自己是貨真價實的人類，但這個為難機器人的功能，最後卻總是為難到自己。

對著螢幕裡扭曲的文字研究了半天，你還是認不出來那到底是ｈ還是ｂ，只能亂猜一通，期待下一組圖片會更好。

在這個時候，你開始懷疑起自己現代智人的身分，也開始思考：「花那麼多時間輸入驗證碼，到底有什麼意義？」其實，你花在驗證碼的這些時間並沒有白白浪費，反而對人類的文化事業和未來的科技發展做出了貢獻喔！

驗證碼的起源

在2000年的時候，大多數人都還在用E-Mail，當時最令人困擾的不是超低的網速，而是漫天飛舞的垃圾郵件，當時有一群人刻意寫出能夠不斷註冊帳號的程式，好讓他們用木馬程式和壯陽藥廣告塞滿你的信箱。

除了用戶不堪其擾外，當時最大的受害者是免費提供E-mail註冊的的 Yahoo，他的員工每天要加班刪除濫發郵件的帳號，卻還是趕不上機器註冊的速度。

毫無辦法的Yahoo 找到了一個叫做路易斯（Luis von Ahn）的電腦天才，他提出了一個叫做CAPTCHA的解決方案，將一些經過扭曲和汙染的文字放在註冊介面，讓人類可以輕鬆的辨認，但機器卻看不清楚，藉此阻擋程式碼大量註冊垃圾帳號的現象。

有了CAPTCHA驗證碼系統之後，雖然垃圾郵件減少了，但是路易斯並沒有因此而滿足，他發現有當時許多組織致力於將實體書掃描成電子檔案，避免這些文化結晶因為天災人禍而消失。但很多古書因為污漬、褪色或是筆跡潦草等原因，沒辦法被機器有效的識別。

路易斯想起了自己的驗證碼系統，同樣都是識別文字，如果能讓用戶在使用驗證碼的時候能順便識別古書，那不是很棒嗎？

於是，一個叫做 reCAPTCHA 的新版系統誕生了。

reCAPTCHA顯示出來的驗證碼就像圖片裡的一樣，他會給出兩個單字，左邊的單詞 fiery 是電腦能夠識別的單字，是用來測試你是不是真人或來亂的。

而右邊的單字則來自於電腦無法識別的古書內容。如果有十位用戶都輸入了一樣的答案，那麼這個答案就會被當作是正確的，並將答案回傳給書籍電子化的組織。

也就是說，右邊的那個字，在你輸入答案之前，世界上沒有任何人知道他實際是甚麼單字，你以為你是在解題，實際上是在創造答案。

透過這個方法，reCAPTCHA 至今已經電子化了兩千五百萬本書，人們在不知情下，充滿抱怨和憤怒的幫忙保存了許多珍貴的文化瑰寶。

（示意圖／作者提供）

不過大家應該也注意到了，這種輸入單字的驗證碼近年來越來越少，取而代之的是各種「選出圖中含有XX的照片」，這又是怎麼回事呢？

其實這還是同一套系統，在2012年的時候Google收購了reCAPTCHA，不過他們對古書沒有太大的興趣，而是把文字換成了難以辨識的門牌街景圖片，所以總會有人看到驗證圖片覺得眼熟：「這怎麼看起來好像我家啊？」

對的，那還真的很可能就是你家。

而辨識這些街景圖片也不是吃飽撐著，而是為了訓練人工智能，告訴他們正常的人類是怎麼想的，透過數億人對人工智能的熱心調教，GOOGLE研發的無人駕駛汽車Waymo已經在自動駕駛領域大幅領先其他公司。

雖然這相當於大家在幫GOOGLE打工，還沒有錢領，但往好處想，至少你以後可以在履歷上增加一項工作經歷：「GOOGLE御用人工智能訓練師」祝大家求職順利。

責任編輯／連珮妤