行政院喊出AI產業行動內閣,數發部亦推出「AI產業化、產業AI化」等相關政策。其中為打造國家級AI語料資料庫,數發部今年將規劃《資料創新應用條例》,把各機關手上的資料開放給TAIDE使用,未來也將開放民間企業進入和共享。
目前政府所投資的主權AI,主力為中研院執行訓練的大語言模型「TAIDE」,又稱台德。自去年發表訓練8B大小的Llama 3-TAIDE-LX-8B-Chat-Alpha1模型後,台德便無消無息,業界研判政府可進入的訓練資料已用盡,難以持續推出新模型或提高效能。這次的《資料創新應用條例》,目標即是開放政府各部會的資料,並開放AI研發團隊進入,增加繁體中文數據量和台灣的資料能見度。
立法進度 、政策重點
此《資料創新應用條例》由資料創新司負責擬定草案,司長莊明芬今(10)日說明立法進度,表示去年草案已經完成,現在正在跟利害關係人,包括中央各部會、地方政府和專家學者等,調整後就會送到行政院去討論。
資料創新司的關注在「開放資料」,也就是越多資料開放、轉化為AI訓練資料,進行語料品管,並宣導其應用價值。這次立法從此核心外擴,將會訂定法條來建立資料的基礎工程,幫助各政府機關應用AI訓練資料和品管。此外,也將鼓勵民間產業善用政府資料,進行商業化運用。
盤點開放資料內容
莊明芬表示,過往政府開放資料約5萬多筆;另外有1千多筆散落在各部會,此次立法將會協助開放給外界運用。這1千多筆包含文化部的國家記憶,客委會、原民會的語言資料,和政府研究資訊系統GRB等。
莊明芬進一步說明,部分涉及個資、隱私的資料,將會協助各部會進行去識別化,並持續跟各部會溝通,「做法治的配合」。
政府先行,鼓勵共享
莊明芬說明,這項法案的重點還包括了促進各業資料的共享和活絡,為此,將優化資料申請機制、收費和授權方式等制度。首要是政府把大量多元化、塊狀資料釋出,「政府先行」,接著也希望邀請私部門,參與「公私協作」,把資料貢獻出來。
資料應用面,除了讓台德團隊使用政府資料進行模型開發,為促進產業共享,降低企業進入門檻,創新司規劃企業可免費使用政府開放資料,而共享資料則採用優惠費率,並設立資料創新實驗的環境來獎助企業,最後創新的成果也會回饋給民眾來使用。