人工智慧(AI)最近的發展讓世人為之驚嘆,從大型語言模型(LLMs)到具備推理能力的智慧代理人,AI看似不斷突破人們的想像邊界。但細究其背後驅動的力量,並非如一般所認為的是不斷湧現的新技術或新理論,而是更豐富、更精確,以及更具創新性的新資料集。
回顧AI發展的里程碑,無論是2012年以AlexNet為代表的深度神經網路(DNNs)崛起,還是2017年以Transformer架構為核心的自然語言處理革命,甚至2022年崛起的以人類反饋進行強化學習(RLHF)與近年逐漸成熟的推理模型,背後真正的共同點都是新資料集的出現與規模性應用。
例如AlexNet成功的關鍵在於ImageNet資料集的推出,後續十五年的電腦視覺進展幾乎都是圍繞著此資料集的持續擴展。另外Transformer的問世,實際上是啟動了一場如何有效利用整個網路文字資料的競賽,進而帶動了如ChatGPT系列模型的高速演進。
研究界盛行一種「AI摩爾定律」的觀點,即AI的能力每年都在穩定提升,但實際上更重要的是每一次提升背後,都隱藏著一個新資料集的應用。換言之,技術本身的突破或許並非絕對必要,即使沒有Transformer,也可能會有其他架構能處理大量的網路資料;即使沒有AlexNet,也可能有其他技術能利用ImageNet取得類似成果。
這種觀察凸顯了一個重要但時常被忽視的觀點,在AI發展中,資料的重要性遠超過技術方法的革新。從本質上看,當前主流的AI模型仍然是在應用過去數十年已知的技術,例如監督式學習的基礎在1940年代便由夏農(Claude Shannon,美國數學家,資訊理論之父)提出,而強化學習的基本概念也可追溯到1990年代初。
這也解釋了為什麼最近的一些「重大突破」在仔細檢視後,其實只是舊有方法的新應用。以OpenAI近年提出的推理模型O1為例,它的核心思想仍是強化學習,只是透過新的驗證工具(如計算器或編譯器等外部驗證器)來進一步提升模型的推理效能。
從實務的角度來看,這代表下一次AI的突破很可能依然不是完全全新的理論或技術,而是如何找到下一個重要且尚未被充分利用的資料來源。當前的趨勢顯示,「資料競爭」將會成為未來數年甚至數十年AI發展的核心關鍵。
但過度強調資料的重要性也引發了一些擔憂,一方面,如今大量的AI資源集中在少數擁有豐富資料和算力的大公司手中,例如OpenAI、Google和Meta等,這種集中的趨勢可能會限制創新,進一步加劇市場的壟斷;另一方面,AI模型過度依賴大規模資料集也可能隱藏潛在的偏見或錯誤,導致AI系統產生無法預測的後果。
因此未來的AI發展應當更加重視如何有效、負責任地蒐集、管理及使用資料,以確保AI技術的創新真正服務於全人類的福祉。同時我們也應當更加謹慎地思考AI技術背後的倫理與社會責任,以避免過度依賴資料所帶來的負面效應。
當我們驚嘆於AI技術發展的同時,更應清醒地意識到資料才是真正驅動AI革命的核心力量。唯有妥善運用資料,才能讓AI真正成為推動社會進步的利器,而非埋藏隱患的潘朵拉之盒。
*作者為台北商業大學前校長暨叡揚資訊顧問/鑫友會前瞻政策顧問。本文由鑫友會提供,授權刋載。 (相關報導: 華爾街日報》AI發展放慢腳步,這未必是壞事 | 更多文章 )





















































