推動AI在地化評測與第三方驗證 強化產業AI信任發展
AI產品與系統評測中心(Artificial Intelligence Evaluation Center,簡稱AIEC)於10月3日首次公布語言模型基準評測結果,期望推動台灣AI在地化評測與第三方驗證,進一步強化產業AI的信任基礎。
本次評測依語言模型規模進行系統性檢測,檢視國內外模型的整體表現。除了採用「高中學測國文科」與「高中學測社會科」作為標準指標外,AIEC更納入「台灣價值觀」評測,呼應國際AI主權發展趨勢,並作為未來建構在地模型或調校國際模型的重要基準。
在42項受測模型中,國內開發的 TAIDE(Gemma-3-TAIDE-12b) 在小模型(13b以下)組別中表現名列前茅,甚至優於其基礎模型 Google Gemma-3-12b-it,展現台灣AI研發能量。在大模型(13b以上)方面,OpenAI GPT-5 的整體表現最佳;而 Google Gemini 2.5 Flash 在「台灣價值觀」項目中表現突出,顯示其對台灣主流價值觀具備高度理解與對應能力。另有部分中國模型在「台灣價值觀」測驗中也有不錯表現,研判可能是因為其蒸餾技術取用歐美模型輸出作為訓練資料。
整體而言,若歐美語言模型未使用台灣繁體中文語料進行訓練,在「台灣價值觀」的評測上相對較弱,突顯出本土化語料建置的重要性。數位發展部目前正積極推動台灣主權AI語料庫,提供具在地語境與本土價值的繁體中文資料,成為語言模型訓練的重要基礎,確保AI發展能夠符合台灣社會價值與語言文化。 (相關報導: AI語言模型專家王冠程30年推雙語教學 AI英文作文檢定系統獲金鼎獎入圍肯定 | 更多文章 )
AIEC也將廣徵各界專家提供評測題目,經審查後可納入未來評測題庫。未來AIEC將針對不同產品、系統與應用領域,持續推動國內自研AI評測工具,並積極對接國際評測方法、規範與標準,強化台灣AI產品的市場適用性與全球化發展,朝向安全、穩健、可信賴的AI評測體系邁進。


















































