在生成式AI席捲全球的此刻,語言差距正成為新的數位落差。主流AI模型習慣「聽」英語與簡體中文,卻「不懂」台語、客語、原住民族語,甚至連台灣華語的語境都難以掌握。為了改變這個現況,IMA資訊經理人協會發起「Taiwan Tongues台灣通用語料庫計畫」,集結作家、產業、學界與政府之力,打造本土語言的開源語料庫與訓練框架,讓AI也能學會「台灣話」。
「語言是活的文化,不能只是被保存,更要能被學習。」台語文學作家、吳三連獎得主胡長松這麼說。他率先捐出150萬字創作,成為Taiwan Tongues計畫首位釋出語料的作家。這份文化行動隨即獲得作家圈熱烈響應,包括詩人向陽、曾貴海(由曾澤民代表出席)與《文訊》雜誌社長封德屏等文化工作者也加入陣容。
截至目前,Taiwan Tongues已累積超過500萬字高品質語料,並上架至國際知名的Hugging Face平台,開放非商業使用,提供語音助理、機器翻譯、語言教學與文化推廣應用。IMA表示,未來將以「月入百萬字」為目標,持續推動語料開放接力,拓展AI學習本土語言的素材基礎。
IMA協會理事長蔡祈岩:不只是給AI教材,還給它教案與考卷
「我們不只是給AI教材,還給它教案與考卷。」IMA協會理事長蔡祈岩指出,Taiwan Tongues不是單純的資料蒐集,而是一套完整的AI語言學習機制。
除了語料,計畫更與快閃記憶體大廠群聯電子合作,開發以Reward Model與RL(強化學習)微調技術為基礎的語境訓練框架。該框架能辨識多元觀點、調整語意落差,協助企業打造具在地語感的本土化AI應用。
此外,Taiwan Tongues也設計了台灣語境專屬的模型評測機制,與陽明交通大學教授廖元甫合作,使用教育部台語辭典與作家語料進行模型持續預訓練(CPT)與監督微調(SFT)。結果顯示,經Taiwan Tongues語料訓練的台語AI模型,其語意理解與生成能力顯著提升,學術與應用並進。
政府支持主權AI 文化自主成為科技戰略
數位發展部次長林宜敬表示,AI正在重塑世界的語言與價值流動,台灣語言的能見度正面臨嚴峻挑戰。主權AI不只是技術議題,更是文化自主與民主深化的戰略選擇。
林宜敬同步宣布3項策略支持Taiwan Tongues計畫:由數位部統籌整合政府語料、交由IMA協會推動民間語料授權與建置、強化政府與民間在語料開放、模型建構與應用評測上的協力合作。
Wiki Taiwan啟動 語言數位化邁向全民共編
為進一步擴展語料來源與文化能見度,Taiwan Tongues計畫即將開啟「Wiki Taiwan」工作項目,從維基百科翻譯起步,打造全民參與的台灣語言百科全書。首波目標為將140萬筆繁體中文條目翻譯為台語,後續亦將同步推進客語、原住民族語內容擴充。
此舉不僅可快速充實AI訓練語料,更具實質意義。蔡祈岩指出,這是一場跨語種、跨社群、跨世代的語言行動,讓台灣語言不只存在於課本與書寫,更深刻地進入AI的核心。
Taiwan Tongues不只是語料運動,更是文化復振與科技接軌的實踐。從作家到工程師、從文學到模型,這場語言革命正打破學科與產業邊界,讓AI理解台灣話。 (相關報導: 「川普主義是讓美國單獨偉大」 童子賢:沒了全球人才 美國還精彩嗎? | 更多文章 )
蔡祈岩強調,「語言不只是記憶的載體,更是文化主體性的證明。」Taiwan Tongues希望召喚更多來自不同領域的參與者,一起讓台語、客語在AI浪潮中站穩腳步,發聲、被聽見,並且真正被理解。






















































