華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求-風傳媒

華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求

Villalobos說，利用所有可用的高品質語言和圖像數據之後，仍可能至少存在10兆個-20兆個詞元的缺口。尚不清楚如何彌補這一缺口。

兩年前，Villalobos和他的同事寫道，高品質數據到2024年中期供不應求的可能性為50%，到2026年供不應求的可能性為90%。自那以來他們變得更樂觀了一點兒，他們計劃把預測所涉時間框架更新到2028年。

可在網上獲得的大部分數據對AI訓練來說並無用處，因為存在句子殘缺等缺陷，或者不能增進模型的知識。Villalobos估計，網際網路上的數據只有一小部分對此類訓練有用——也許僅相當於非營利組織Common Crawl收集的資訊的十分之一。該組織的網路數據集被AI開發者廣泛使用。

與此同時，社交媒體平台、新聞出版商和其他相關方出於對公平補償等問題的關切，已在對獲取其數據用於AI訓練設限。公眾也很少願意交出私人對話數據（如通過iMessage進行的聊天）來幫助訓練這些模型。

祖克柏（Mark Zuckerberg）最近宣揚了Meta Platforms在自家平台上獲取數據的能力，將其當成該公司發展AI業務的一大優勢。他說，Meta可以挖掘旗下各個網路（包括Facebook和Instagram）上數以千億計公開分享的圖片和影片，其總量大於多數常用的數據集。尚不清楚這些數據中有多大比例會被視為高品質數據。

數據挑選工具初創企業DatologyAI採用的一種策略被稱為課程學習，即按照特定順序把數據輸入語言模型，希望AI能在概念之間形成更好的關聯。在2022年的一篇論文中，DatologyAI的Morcos和合著者估計，模型藉助半數相關數據就能達到同樣的效果——只要數據是合適的——這有可能降低訓練和運行大型生成式AI系統所需的巨大成本。

迄今為止的其他一些研究暗示課程學習這種辦法效果不佳，但Morcos說他們正持續調整自己的方法。

「這是深度學習方面不足為外人道的秘密：這是在以直觀的方法試錯，」Morcos說。

包括OpenAI的合作夥伴微軟（Microsoft）在內，一些科技公司正構建體量僅為GPT-4的一小部分，但可以實現特定目標的較小語言模型。

OpenAI首席執行官阿特曼（Sam Altman）已表示該公司正在研究訓練未來模型的新方法。他在去年的一次會議上說：「我認為我們正處於一個時代的末期，這個時代由這些巨型模型組成；我們會用其他方式讓它們變得更好。」

1 2 3 全文閱讀

華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求

華爾街日報》美國瘋搶AI人才！科技公司祭出百萬美元年薪，甚至挖角對手整個團隊

華爾街日報》55歲才創辦世界上最重要的公司，台積電「教父」張忠謀秘訣何在？

華爾街日報》華為逆襲：不僅沒被美國制裁打倒，去年淨利潤更翻倍成長

華爾街日報》全球電動車分裂為兩大陣營：中國製和非中國製

華爾街日報》美國年輕人為何愛上「小紅書」？他們受夠了社交平台的虛假讚美和公然羞辱

華爾街日報》科技巨頭在AI時代的新煩惱：如何找到足夠的電力？