觀點投書：當資訊爆炸，真正稀缺的是可驗證的知識 | 蕭國振

從文案、程式到影音製作，許多原本需要長時間投入的流程，如今都能在短時間內完成。這樣的變化不只改變工作方式，也影響哪些資訊更容易被看見、被引用，甚至被納入後續訓練資料。

在傳統媒體與專業內容生產中，價值來自採訪、查證與編輯的投入，因此具備一定可信度。人工智慧雖能快速產出大量文字，但其生成方式與資料來源的透明度較低；在缺乏事實基礎的情況下，相關輸出也可能出現不準確或難以驗證的問題。

AI 生成文本提升了資訊整理效率，也降低取得摘要的門檻。不過，隨著這類文本在網路上增加，模型在訓練過程中，反覆接觸其他模型的輸出，而非人類原始創作；長期而言，這樣的循環可能影響生成結果的穩定性與準確性。

目前大型語言模型的訓練，主要依賴網路蒐集的人類語料與其他資料來源。隨著模型生成文本增加，訓練資料中合成內容的比例可能提高。後續模型在學習時，接觸既有模型輸出的機會也隨之增加，人類原生語料的比重則相對下降。

學術研究將這類潛在影響稱為模型崩潰（model collapse），用來描述資料反覆訓練後可能出現的分布偏移與收斂；在公共討論中，則常以「AI 吃 AI」作為較直觀的比喻。目前尚無充分證據顯示，主流模型因合成資料循環而普遍出現明顯崩壞。較常被關注的，是長期品質、多樣性，以及對少見情境的處理能力是否出現變化。

實務上，模型開發者仍持續導入人類資料，並透過去重與品質過濾等機制控制資料來源，以維持模型表現。這些設計會影響最終輸出品質，也使相關風險在不同系統之間呈現差異。

2025年1月，OpenAI 宣布與美國數位新聞媒體 Axios 合作，資助其擴展四個地方新聞編輯室，並讓ChatGPT在回答用戶問題時引用其內容。這類合作不只是授權安排，也反映模型公司在資料來源選擇上的調整。

當網路充斥大量快速生成的文本時，資料來源的品質與可追溯性更難判斷。相較之下，經過採訪與編輯的新聞資料，仍具備明確來源與事實基礎。對模型公司而言，直接取得這類資料，比在混雜來源中反覆篩選更有效率。隨著生成文本持續增加，能提供這類資料的來源相對變得稀缺，人類長期累積並持續生產的知識，也因此呈現出更高的價值。

隨著生產成本下降，資料來源的品質、可追溯性與編輯機制，在整體資訊環境中的重要性逐漸提升。搜尋平台持續優化篩選機制，模型開發者正在重新配置高品質資料來源。

模型雖能快速生成文字，但這些輸出仍依賴既有語料的重組。新的事實、經驗與觀察，主要來自人類社會的實地調查與專業實作；調查報導、長期研究及實務判斷，並不會因生成技術進步而自動產生。

在這樣的條件下，當資訊可以被快速複製與擴散，稀缺性逐漸從表達形式移開，轉向那些能持續產生、驗證並更新的知識來源。競爭的焦點也隨之變化。運算能力與模型規模固然重要，但是否擁有長期累積、且可被檢驗的人類智慧資產，將更直接影響模型的學習深度與延伸潛力。

＊作者為大專院校法律與資安領域兼任教師。