從文案、程式到影音製作,許多原本需要長時間投入的流程,如今都能在短時間內完成。這樣的變化不只改變工作方式,也影響哪些資訊更容易被看見、被引用,甚至被納入後續訓練資料。
在傳統媒體與專業內容生產中,價值來自採訪、查證與編輯的投入,因此具備一定可信度。人工智慧雖能快速產出大量文字,但其生成方式與資料來源的透明度較低;在缺乏事實基礎的情況下,相關輸出也可能出現不準確或難以驗證的問題。
AI 生成文本提升了資訊整理效率,也降低取得摘要的門檻。不過,隨著這類文本在網路上增加,模型在訓練過程中,反覆接觸其他模型的輸出,而非人類原始創作;長期而言,這樣的循環可能影響生成結果的穩定性與準確性。
目前大型語言模型的訓練,主要依賴網路蒐集的人類語料與其他資料來源。隨著模型生成文本增加,訓練資料中合成內容的比例可能提高。後續模型在學習時,接觸既有模型輸出的機會也隨之增加,人類原生語料的比重則相對下降。
學術研究將這類潛在影響稱為模型崩潰(model collapse),用來描述資料反覆訓練後可能出現的分布偏移與收斂;在公共討論中,則常以「AI 吃 AI」作為較直觀的比喻。目前尚無充分證據顯示,主流模型因合成資料循環而普遍出現明顯崩壞。較常被關注的,是長期品質、多樣性,以及對少見情境的處理能力是否出現變化。
實務上,模型開發者仍持續導入人類資料,並透過去重與品質過濾等機制控制資料來源,以維持模型表現。這些設計會影響最終輸出品質,也使相關風險在不同系統之間呈現差異。
2025年1月,OpenAI 宣布與美國數位新聞媒體 Axios 合作,資助其擴展四個地方新聞編輯室,並讓ChatGPT在回答用戶問題時引用其內容。這類合作不只是授權安排,也反映模型公司在資料來源選擇上的調整。
當網路充斥大量快速生成的文本時,資料來源的品質與可追溯性更難判斷。相較之下,經過採訪與編輯的新聞資料,仍具備明確來源與事實基礎。對模型公司而言,直接取得這類資料,比在混雜來源中反覆篩選更有效率。隨著生成文本持續增加,能提供這類資料的來源相對變得稀缺,人類長期累積並持續生產的知識,也因此呈現出更高的價值。
隨著生產成本下降,資料來源的品質、可追溯性與編輯機制,在整體資訊環境中的重要性逐漸提升。搜尋平台持續優化篩選機制,模型開發者正在重新配置高品質資料來源。
模型雖能快速生成文字,但這些輸出仍依賴既有語料的重組。新的事實、經驗與觀察,主要來自人類社會的實地調查與專業實作;調查報導、長期研究及實務判斷,並不會因生成技術進步而自動產生。
在這樣的條件下,當資訊可以被快速複製與擴散,稀缺性逐漸從表達形式移開,轉向那些能持續產生、驗證並更新的知識來源。競爭的焦點也隨之變化。運算能力與模型規模固然重要,但是否擁有長期累積、且可被檢驗的人類智慧資產,將更直接影響模型的學習深度與延伸潛力。
*作者為大專院校法律與資安領域兼任教師。














































