華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求 | 華爾街日報

急於開發更強大AI的公司突然面臨一個新問題：對於它們的計劃來說，網際網路可能太小了。

OpenAI、Google和其他公司開發的功能越來越強大的系統需要更多的資訊來學習。而在一些數據所有者過濾AI公司對自身數據訪問的情況下，這種需求導致網際網路上可用的優質公共數據池變得緊張。

訂閱風傳媒VIP會員，享有零廣告閱讀介面

透過<Google新聞>追蹤風傳媒

本文為風傳媒與華爾街日報正式合作授權轉載。加入VVIP會員請點此訂閱：風傳媒・華爾街日報VVIP，獨享全球最低優惠價，暢讀中英日文全版本之華爾街日報，洞悉國際政經最前沿。

一些企業高管和研究人員表示，該行業對高品質文本數據的需求可能會在兩年內超過供應量，從而有可能減緩AI的發展。

AI公司正在尋找尚未開發的資訊源，並重新思考如何訓練這些系統。熟悉內情的人士說，ChatGPT的出品商OpenAI已經討論過將公開的YouTube影片裡所說的內容轉換成文本，並以此為基礎訓練該公司的下一個模型GPT-5。

一些公司還在嘗試使用AI生成的數據（也稱合成數據）作為訓練材料，許多研究人員表示，這種方法實際上可能會造成嚴重的故障。

這些做法通常都是秘密進行的，因為企業高管認為解決方案也可以是一種競爭優勢。

AI研究員Ari Morcos說，數據短缺「是一個前沿性的研究問題」；他曾在Meta Platforms和GoogleDeepMind部門工作，去年創辦了DatologyAI。他的公司打造改進數據選擇的工具，可能幫助企業以更低的成本訓練AI模型；DatologyAI的投資者包括一些AI先驅企業。「目前還沒有成熟的方法可以做到這一點。」

數據是供不應求的幾種重要AI資源之一。在ChatGPT、Google的Gemini和其他AI機器人背後運行的大型語言模型所需的晶片也很稀缺。此外，行業領導者擔心的還有數據中心和這些中心所需電力的不足。

AI語言模型是利用從網際網路上獲取的文本建立的，這些文本包括科學研究、新聞報導和維基百科（Wikipedia）條目。這些材料被分解成詞元（token），即模型用來學習如何構建類似人類表達的單詞和部分單詞。

一般來說，AI模型訓練的數據越多，能力就越強。OpenAI對這種方法押下了大注，由此成為了世界上最著名的AI公司。

OpenAI沒有透露該公司目前最先進的語言模型GPT-4的詳細訓練材料；GPT-4已成為高級生成性AI系統的行業標準。

但據Pablo Villalobos估計，GPT-4的訓練素材已經多達12兆個詞元；Villalobos為研究院Epoch研究AI。Villalobos和其他研究人員估計，根據一個名為Chinchilla擴展定律（Chinchilla Scaling Law）的電腦科學原理，如果研究人員繼續遵循當前的成長軌跡，像GPT-5這樣的AI系統將需要60兆到100兆個詞元的數據。（相關報導：華爾街日報》美國瘋搶AI人才！科技公司祭出百萬美元年薪，甚至挖角對手整個團隊｜更多文章）

Villalobos說，利用所有可用的高品質語言和圖像數據之後，仍可能至少存在10兆個-20兆個詞元的缺口。尚不清楚如何彌補這一缺口。

兩年前，Villalobos和他的同事寫道，高品質數據到2024年中期供不應求的可能性為50%，到2026年供不應求的可能性為90%。自那以來他們變得更樂觀了一點兒，他們計劃把預測所涉時間框架更新到2028年。

可在網上獲得的大部分數據對AI訓練來說並無用處，因為存在句子殘缺等缺陷，或者不能增進模型的知識。Villalobos估計，網際網路上的數據只有一小部分對此類訓練有用——也許僅相當於非營利組織Common Crawl收集的資訊的十分之一。該組織的網路數據集被AI開發者廣泛使用。

與此同時，社交媒體平台、新聞出版商和其他相關方出於對公平補償等問題的關切，已在對獲取其數據用於AI訓練設限。公眾也很少願意交出私人對話數據（如通過iMessage進行的聊天）來幫助訓練這些模型。

祖克柏（Mark Zuckerberg）最近宣揚了Meta Platforms在自家平台上獲取數據的能力，將其當成該公司發展AI業務的一大優勢。他說，Meta可以挖掘旗下各個網路（包括Facebook和Instagram）上數以千億計公開分享的圖片和影片，其總量大於多數常用的數據集。尚不清楚這些數據中有多大比例會被視為高品質數據。

數據挑選工具初創企業DatologyAI採用的一種策略被稱為課程學習，即按照特定順序把數據輸入語言模型，希望AI能在概念之間形成更好的關聯。在2022年的一篇論文中，DatologyAI的Morcos和合著者估計，模型藉助半數相關數據就能達到同樣的效果——只要數據是合適的——這有可能降低訓練和運行大型生成式AI系統所需的巨大成本。

迄今為止的其他一些研究暗示課程學習這種辦法效果不佳，但Morcos說他們正持續調整自己的方法。

「這是深度學習方面不足為外人道的秘密：這是在以直觀的方法試錯，」Morcos說。

包括OpenAI的合作夥伴微軟（Microsoft）在內，一些科技公司正構建體量僅為GPT-4的一小部分，但可以實現特定目標的較小語言模型。

OpenAI首席執行官阿特曼（Sam Altman）已表示該公司正在研究訓練未來模型的新方法。他在去年的一次會議上說：「我認為我們正處於一個時代的末期，這個時代由這些巨型模型組成；我們會用其他方式讓它們變得更好。」

知情人士說，OpenAI還討論過創建一個數據市場，在這個市場上OpenAI可以建立一種方法來確定每個數據點對最終訓練模型的價值貢獻程度，並向相關內容的提供者支付報酬。

Google內部也在討論同樣的想法。但迄今為止，研究人員一直在努力構建這樣一個系統，目前還不清楚他們能否找到突破口。

OpenAI還在努力收集一切已有的有用資訊。知情人士稱，高管們已經討論過使用自動語音識別工具Whisper在網際網路上轉錄高品質影片和音檔示例。這些人說，其中一些將通過公開的YouTube影片來實現，這些影片中的一部分已經被用來訓練GPT-4。

OpenAI的一位發言人說：「我們的數據集是獨一無二的，我們進行了整理，以幫助我們的模型領悟世界」，她還說，其工具從公開可用的內容中提取資訊，並通過合作夥伴關係獲取非公開數據。

Google沒有回覆記者的置評請求。

一些公司也在嘗試製作自己的數據。

輸入本身由AI生成的模型文本，被認為是近親繁殖的電腦科學版本。此類模型往往會出現胡編亂造的現象，一些研究人員稱之為「模型崩潰」。

去年的一篇研究論文討論的一項實驗中，加拿大和英國的研究人員發現，當被要求討論14世紀的英國建築時，這種模型的後代版本會喋喋不休地談論不存在的傑克兔物種。

OpenAI和Anthropic的研究人員正試圖通過創建所謂更高品質的合成數據來規避這些問題。

在最近的一次採訪中，Anthropic首席科學家Jared Kaplan表示，某些類型的合成數據可能會有所幫助。Anthropic說，它使用「我們內部生成的數據」為其最新版本的Claude模型提供資訊。這位發言人稱，OpenAI也在探索合成數據生成。

許多研究數據問題的人士對最終找到解決方案持樂觀態度。Villalobos將其比作「石油峰值」，即擔心石油生產可能會觸頂並引發一場痛苦的經濟崩潰。由於新技術的出現，這種擔憂已被證明是不準確的，比如本世紀初的壓裂技術。（相關報導：華爾街日報》美國瘋搶AI人才！科技公司祭出百萬美元年薪，甚至挖角對手整個團隊｜更多文章）

他說，AI世界也有可能出現類似的發展。「最大的不確定性在於你將看到什麼樣的突破。」