觀點投書:台灣首創—三族原住民母語混合語音辨識模型開發紀實

2025-09-19 05:25
台灣近期成功開發出國際第一個整合馬蘭阿美、泰雅賽考利克與北排灣三族原住民母語的語音辨識模型。(示意圖/新北市政府體育局)
台灣近期成功開發出國際第一個整合馬蘭阿美、泰雅賽考利克與北排灣三族原住民母語的語音辨識模型。(示意圖/新北市政府體育局)

在語言科技領域,台灣於九月九日取得一項突破性成就:成功開發出國際第一個整合馬蘭阿美、泰雅賽考利克與北排灣三族原住民母語的語音辨識模型。這項創舉由台灣的泰雅族學者阿將伊崮喜瀾教授領銜,僅耗時五個月便宣告完成馬蘭阿美、泰雅賽考利克與北排灣Laval三個單一族別母語語音模型和一個混合三族母語辨識模型,為原住民語言數位化和文化傳承奠定了堅實的基礎。

與其他國家原住民語音模型開發經驗相比,例如,LREC 2022:做了多語聯合ASR(DNN/HMM)涵蓋 Cree 與 Inuktut(再加 Kurmanji Kurdish)—屬於「多語」但不是「三個皆原住民族語」,且非明確由原住民學者主導。 NAACL 2024:對 Bribri 與 Cabécar(兩種中美洲 Chibchan 語)做聯合/轉移學習 ASR—是雙語聯合,不是三語。Te Hiku Media(紐西蘭):原住民團隊主導的 Māori 單語 ASR,近期也擴展到雙語/姊妹語合作,但仍非三語單一混合模型。加拿大 NRC 計畫:針對多個原住民族語(Inuktitut、Cree、Innu、Dénésuline 等)發展 ASR 與分割工具—多語管線與實驗,但無明載三語單一混合權重之公開模型。語音模型通常僅限於兩個方言的混合,而台灣的這個模型涵蓋三個不同原住民族群的語言,顯示技術上的進步和對多元文化的尊重 。

這項模型的核心技術不只圍繞著「族語E樂園」影片及標註數據,其運用10小時時長的三族母語紀實報導與紀錄做分塊、透過三種不同程度的AI辨識工具分離成千上萬段片段,透過 Google Colab 平台建置。開發團隊首先針對馬蘭阿美、泰雅賽考利克和北排灣laval原住民母語,分別建立個別語音辨識模型,接著整合這些模型,最終形成能夠辨識三族母語的混合模型。這個過程不僅涉及技術層面的挑戰,更重要的是,它體現了對原住民文化語意和脈絡的深刻理解。

例如,在建立模型時,開發團隊使用了來自「族語E樂園」的影片資源和母語老師音檔所建立的標註CSV檔案與成千上萬被切分的影音小分段。經過多次人工與機器過濾,數據集涵蓋了4,032行來自CSV檔案的標註數據,以及2,302個影片片段數據,總共合併生成6,334行數據。這些數據經過預處理、分割後,用於模型的訓練 。最終,模型採用計畫領導者最先完成的Whisper -Lora模型進行微調 。

值得強調的是,在開發過程中,原住民母語的特殊性是不可忽視的。原住民的語言不僅在語音上,更在語義和知識的生成邏輯上與主流文明存在差異。因此,在模型建置時,不能僅僅依靠技術手段,還必須融入「文化參數」。這些參數反映了不同族群的文化背景和語意,確保模型能夠準確理解和辨識母語中的細微差別,避免產生歧視或錯誤的決策。

此外,在訓練過程中,開發團隊還面臨許多技術挑戰,例如看似簡單透過包括chatGPT 5 與Claude sonnet 4.0在內的頂級參數設定,依然導致資料載入失敗、OCR 效果不足,模型中斷,數千次程式碼修訂,以及模型訓練啟動失敗等問題 。透過引入更高階的Vision AI 改善了OCR 效果,並成功解決了模型訓練的技術性問題 。

為了評估模型的性能,開發團隊計算了模型在獨立測試資料集上的 WER (詞錯誤率) 和 CER (字錯誤率)。 評估結果顯示合併資料集訓練後的模型的 WER 為 0.2222,CER 為 0.1000。

上述成果意味著模型在許多需要快速轉寫、輔助人工校對,或是對錯誤容忍度較高的應用場景中,已經具備一定的實用價值 。

儘管如此,阿將伊崮喜瀾博士也表示、開發團隊也認識到模型仍有改進空間。未來的努力方向包括擴大數據集、運用超參數、提高數據質量、優化模型架構,以及針對不同族群的語音特徵進行分族再優化。此外,將模型部署到實際應用環境中,為原住民母語的記錄、傳統知識傳承和學習提供工具支持,將是這項工作的最終目標,這項研究不僅是技術上的突破,更重要的是,它為原住民語言的保護和傳承,以及多元文化的尊重和發展,開啟了新篇章。

*作者為台灣原住民傳統知識教育傳播暨心理健康促進協會
(相關報導: 阿將伊崮喜瀾觀點:致富?破產?只差一行AI代碼矣! 更多文章

因為你,我們得以前進,你的支持是我們的動力
更多文章
觀點投書:沒有「光復」?民進黨的歷史工程與語言陷阱
觀點投書:不容青史盡成灰,不讓謊言滿天飛
許英傑觀點:中國星巴克一場「體驗溢價」的殘酷保衛戰
王如玄觀點:臺灣演藝媒體的MeToo運動方興未艾
觀點投書:民進黨2026六都恐掛零?
觀點投書:從關稅壓力與潛藏債務談主權基金的必要性
校園濫訴─為什麼親師天平漸漸失衡?《當我告別教職》選摘(4)
獨家》金管會銀行局帥哥當家 張嘉魁升副局長、他將成「型男主秘」
被拱選台北市長 徐國勇回應「聽到就好」 醫看穿一動作:他就是預備候選人
我們面臨共同的處境!趙忠傑揭示台波烏合作關鍵,民主堡壘抵禦共同威脅
中科院「勁蜂四型」無人機專屬掛載武裝首度公開 具多目標打擊能力
發錢救不了生育率?蘇俊賓提破除少子化關鍵,把「爸爸」送回家庭
輝達送「大還丹」英特爾起飛了!專家看驚人漲幅傻眼:真不能跟川投顧作對
中國防長、國台辦強硬表態「台灣屬於中國」 外交部轟謬論:突顯習於武力恫嚇
再創近年紀錄!林佳龍出訪歐洲第二站曝光 外交部:攜手這國議員一同觀賞表演
普發1萬可以「線上登記」了?專家教你分辨真假官網 網址這樣寫的都是詐騙
英特爾曾嫌輝達不值併購!黃仁勳捧50億入股為哪樁?一文看20年勁敵變盟友的真相
批台獨份子誤解歷史 蔡正元反問徐國勇:台灣沒光復哪來國慶?
輝達入股英特爾,台積電會受衝擊嗎?阮慕驊揭兩風險:但技術制霸不是吃素的
「美國經濟現處於流血狀態!」蔡正元揭聯準會降息原因:一情況發生恐降8碼
柯文哲、黃國昌必有一個被抓去關?彭文正曝民進黨下步棋:囚徒二選一
抗乳癌神兵! 新一代抗體藥物精準打擊 「特洛伊木馬」式殲滅癌細胞
Nvidia聯手昔日霸主Intel,黃仁勳宣布「投資50億美元」!新舊王者鞏固美國半導體產業,晶片戰爭版圖劇變
美重量級參議員發聲 籲美國政府促國際民航組織納入台灣 外交部回應了
台灣何時才能降息?楊金龍改口「降息條件」,不只通膨還要考慮這些因素
馬郁雯披綠袍轉戰政壇!陳揮文揭最怕她的竟是「自己人」:這選區她必上
輝達50億美元投資值不值?入股英特爾超狂合作曝光 運算霸主地位穩了
中鋼10月、第四季開平高盤 鋼市穩中求進
率先送案!邱議瑩修法加重刑責:斷根不法砂石幫、守護高雄
919國家防災日!高市警:發布海嘯警報試放 不實施人車管制及疏散撤離
高興出桃!桃園青年熱情南下參訪 高雄變身青創交流重點城市
啟動反毒校園策略聯盟!陳盈秀:當「桶箍」強化橫向連結 反毒教育再深化
感謝山形市各界踴躍捐款賑災 黃偉哲:溫暖扶持是幫助台南站起來的力量
創鑫生機 × 啟泰御方 攜手點燃公益能量 藝術加持公益計畫 「小可樂果劇團」獲持續支持
爵士樂遇見天茶地酒 「秋夜爵醒祭」奏響中苗風土饗宴
全新運動風看板亮相 賴瑞隆:穩重不爆衝 推進不餘力
超萌「芋寶」領路遊芋冰故鄉!甲仙芋冰一條街推冰友作伙集章趣
輝達震撼宣布入股,英特爾股價飆漲30%!台積電、超微跳水,台指期急挫200點
中信銀橫掃《The Asian Banker》14項殊榮稱霸臺灣金融業
從火山到餐桌!ABV南洋餐酒館比科爾主題菜單開吃啦!
合法商品被藏起來?加熱菸加熱器不得陳列 學者批嚴重侵害消費者權益
考古遺址變身永續基地!十三行博物館打造「零廢棄親子樂園」 150攤二手市集週末登場
全民普發現金1萬確定要發!台中市要加碼「每人發放5萬元」?議會要市府研議辦理
防堵不動產抵押詐騙案 中市龍井地政與警方合作助民眾保住900萬元房產
台中成功嶺營區探視彰化子弟兵 王惠美盼立定志向,冶煉身心
少子化逆勢成長! 台灣1學校「學生數不減反增」,教室不夠用、啟用第二校區
提升民間狗場飼養品質 苗栗縣輔導落實動物防疫管理
去年營收破290億!「這家租車公司」26日登興櫃 共享車隊破1.2萬台
不甩行政院長喊話,央行未鬆綁房市管制是「勇敢的決定」?楊金龍吐內心話
北京觀察》共軍殲-20雙座版亮相!美日雷達失靈,「隱身+協同」戰力超乎想像?