美國政府日前要求Anthropic暫停外國人士存取最新AI模型Fable 5與Mythos 5,引發產業對人工智慧供應鏈風險的討論。就在事件發生後不久,日本AI新創Sakana AI於6月22日正式推出新產品「Sakana Fugu」及高階版本「Fugu Ultra」,主打透過多個大型語言模型(LLM)與AI代理人協作完成任務,即使單一模型供應商無法提供服務,整體系統仍能維持運作。
美國出口管制掀波瀾 日本政界憂心淪為「AI殖民地」
Anthropic於6月中旬依據美國政府要求,停止外國人士存取Fable 5與Mythos 5等前沿模型。事件發生後,不少企業開始重新評估將核心服務完全建立於單一模型供應商之上的風險。
這類討論近期在日本也持續升溫。日本數位大臣松本剛久(Hisashi Matsumoto)6月初在談及AI政策時曾警告,日本若無法建立自主AI能力,未來可能淪為「AI殖民地(AI colony)」。他當時主張,日本必須加快推動AI產業發展,否則在關鍵技術與基礎模型上將持續依賴海外企業。
在這樣的背景下,Sakana AI此次推出Fugu,也被部分業界人士視為日本AI產業尋求自主技術路線的最新嘗試。
Sakana AI在Fugu發布說明中指出,Fugu並非傳統意義上的單一大型語言模型,而是一套能夠動態調度多個模型與AI代理人的協作系統。當某個模型無法使用時,系統可以重新分派任務給其他模型完成。
公司將Fugu描述為一套「以單一基礎模型形式提供的多代理協作系統(multi-agent orchestration system as a single foundation model)」。對使用者而言,Fugu看起來像一個模型;但在背後,系統會根據任務需求,自動選擇不同模型與代理人分工合作,再整合成最終答案。
Sakana AI在產品說明中指出,企業過去往往必須自行建構複雜的多代理架構,管理不同模型之間的協作關係。Fugu則希望將這些流程封裝起來,讓使用者以呼叫單一模型的方式使用整套多代理系統。
不再追求更大的模型 而是打造會指揮模型的模型
過去幾年AI產業的主流方向,是透過更大規模資料與運算資源訓練單一模型。不過Sakana AI認為,許多複雜任務其實更適合由不同模型協同完成。
根據官方資料,Fugu本身也是一個經過訓練的語言模型,但它的主要工作不是直接回答問題,而是擔任「指揮官」角色,負責選擇模型、安排代理人合作、檢查結果品質,再整合成最終答案。
例如在程式開發任務中,一個模型可能負責撰寫程式碼,另一個模型負責檢查錯誤與漏洞,第三個模型則負責驗證結果是否符合需求。Fugu的角色則是決定如何分工、何時驗證,以及如何整合最終輸出。
Sakana表示,這套能力建立於TRINITY與Conductor兩項研究成果之上。TRINITY將思考、執行與驗證等工作分配給不同模型;Conductor則透過強化學習訓練出負責協調代理人的模型,讓系統能自行規劃任務流程與模型協作方式。
相較於傳統大型語言模型一次完成所有推理過程,Fugu更接近一個能夠管理團隊的專案經理。
程式開發到資安分析 Fugu Ultra鎖定高難度任務
標準版Fugu主打效能與延遲的平衡,適合程式撰寫、程式碼審查、聊天機器人與一般商業應用;Fugu Ultra則鎖定資料分析、科學研究、論文重現、專利檢索與資安分析等需要多步驟推理的任務。
價格方面,Fugu Ultra採固定計價模式,每100萬詞元(tokens)輸入收費5美元、輸出30美元、快取輸入0.5美元;若上下文長度超過272K詞元,價格提高至輸入10美元、輸出45美元、快取輸入1美元。
與一般多模型系統不同的是,Sakana表示即使同時呼叫多個代理人,也不會把各模型費用疊加計算,而是依參與模型中的最高等級方案收費。
根據官方資料,Fugu在正式上市前已進行約500人的Beta測試計畫。部分測試者認為,在程式碼審查、漏洞分析及研究任務中,Fugu相較單一模型能提供更完整的分析結果。不過相關案例主要來自官方公布的使用者回饋,尚未經第三方獨立驗證。
官方數據:多項基準測試挑戰OpenAI與Google
根據Sakana AI公布的測試結果,Fugu Ultra在多項熱門AI基準測試中展現出前沿模型水準。
在軟體工程能力評測SWE Bench Pro中,Fugu Ultra獲得73.7分,高於Anthropic Opus 4.8的69.2分、Google Gemini 3.1 Pro的54.2分,以及OpenAI GPT-5.5的58.6分。
在評估終端機代理能力的Terminal-Bench 2.1中,Fugu Ultra獲得82.1分,高於Opus 4.8的74.6分、Gemini 3.1 Pro的70.3分,以及GPT-5.5的78.2分。
程式能力評測LiveCodeBench Pro方面,Fugu Ultra取得90.8分,高於GPT-5.5的88.4分與Opus 4.8的84.8分;科學推理測試GPQA Diamond則獲得95.5分,高於Gemini 3.1 Pro的94.3分與GPT-5.5的93.6分。
Sakana AI根據內部測試結果宣稱,Fugu Ultra已達到Anthropic Fable 5與Mythos Preview等級的能力。不過由於Fable 5與Mythos Preview並未公開提供,因此相關比較目前主要來自Sakana AI自身評估,尚缺乏第三方獨立驗證。
公司也表示,Fable 5與Mythos Preview並未被納入Fugu的代理模型池,因此相關成績並非建立於直接調用上述模型之上。
Transformer作者坐鎮 日本AI明星新創快速崛起
成立於2023年的Sakana AI,是近年日本最受矚目的AI新創之一。
公司名稱「Sakana」在日文中意為「魚」,研發理念來自魚群、演化與集體智慧(Collective Intelligence)等自然界現象,而此次推出的Fugu(河豚)也延續這套命名方式。
Sakana AI自成立以來便受到國際資本市場關注。2024年完成約2億美元A輪募資後,公司估值突破10億美元,成為日本少數AI獨角獸企業之一。
2025年11月,Sakana AI完成B輪募資。根據TechCrunch報導,該輪募資規模約1.35億美元,投後估值約26.5億美元。投資方包括三菱日聯金融集團(MUFG)、Khosla Ventures、NEA、Lux Capital,以及美國情報體系相關創投機構In-Q-Tel(IQT)等。
在全球AI新創競爭日趨激烈的情況下,Sakana已成為近年成長速度最快的日本AI公司之一。
AI競爭正從模型能力走向協作能力
Fugu的推出,也反映AI產業正在探索不同於「更大模型」的發展路線。
過去幾年,市場焦點主要集中在誰能訓練出規模更大的基礎模型。然而隨著模型能力逐漸接近、訓練成本持續攀升,越來越多企業開始嘗試透過模型編排(Model Orchestration)與代理人協作(Agent Collaboration)提升整體表現。
對日本AI產業而言,Sakana AI選擇的並非單純追求更大規模模型,而是透過模型編排與代理人協作提升整體能力。隨著前沿模型之間的性能差距逐漸縮小,如何有效整合不同模型完成複雜任務,也成為AI產業正在探索的新方向。