華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求-風傳媒

華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求

知情人士說，OpenAI還討論過創建一個數據市場，在這個市場上OpenAI可以建立一種方法來確定每個數據點對最終訓練模型的價值貢獻程度，並向相關內容的提供者支付報酬。

Google內部也在討論同樣的想法。但迄今為止，研究人員一直在努力構建這樣一個系統，目前還不清楚他們能否找到突破口。

OpenAI還在努力收集一切已有的有用資訊。知情人士稱，高管們已經討論過使用自動語音識別工具Whisper在網際網路上轉錄高品質影片和音檔示例。這些人說，其中一些將通過公開的YouTube影片來實現，這些影片中的一部分已經被用來訓練GPT-4。

OpenAI的一位發言人說：「我們的數據集是獨一無二的，我們進行了整理，以幫助我們的模型領悟世界」，她還說，其工具從公開可用的內容中提取資訊，並通過合作夥伴關係獲取非公開數據。

Google沒有回覆記者的置評請求。

一些公司也在嘗試製作自己的數據。

輸入本身由AI生成的模型文本，被認為是近親繁殖的電腦科學版本。此類模型往往會出現胡編亂造的現象，一些研究人員稱之為「模型崩潰」。

去年的一篇研究論文討論的一項實驗中，加拿大和英國的研究人員發現，當被要求討論14世紀的英國建築時，這種模型的後代版本會喋喋不休地談論不存在的傑克兔物種。

OpenAI和Anthropic的研究人員正試圖通過創建所謂更高品質的合成數據來規避這些問題。

在最近的一次採訪中，Anthropic首席科學家Jared Kaplan表示，某些類型的合成數據可能會有所幫助。Anthropic說，它使用「我們內部生成的數據」為其最新版本的Claude模型提供資訊。這位發言人稱，OpenAI也在探索合成數據生成。

許多研究數據問題的人士對最終找到解決方案持樂觀態度。Villalobos將其比作「石油峰值」，即擔心石油生產可能會觸頂並引發一場痛苦的經濟崩潰。由於新技術的出現，這種擔憂已被證明是不準確的，比如本世紀初的壓裂技術。

他說，AI世界也有可能出現類似的發展。「最大的不確定性在於你將看到什麼樣的突破。」

決策者的最佳夥伴

立即訂閱，即刻暢讀華爾街日報全文內容

並享有更佳的閱讀體驗

1 2 3 全文閱讀

華爾街日報》訓練新世代AI需要海量資訊，網路上的「高品質數據」已嚴重供不應求