AI代理正從單純回答文字問題,進入能看螢幕、聽音訊、讀文件、理解影音脈絡的下一階段。輝達(NVIDIA)今(29)日發表NVIDIA Nemotron 3 Nano Omni,主打將視覺、音訊與語言推理整合進單一開放式多模態模型,讓企業與開發者不必再讓AI代理在多個模型之間來回切換,藉此降低延遲、減少成本與脈絡流失問題。輝達指出,這款模型在相同互動性下,相較其他開放式全模態模型可達到最高9倍資料輸送量,鎖定電腦操作、文件智慧與影音推理等企業級代理型AI工作流程。
多模型接力成企業痛點,延遲、成本與脈絡斷裂難避免
過去企業導入AI代理時,常見做法是以不同模型分別處理視覺、語音與文字任務。例如客服代理可能同時需要解析螢幕錄影、分析通話音訊,並檢查內部資料記錄;金融領域的AI代理也可能需要在PDF、試算表、圖表與語音備忘錄之間交叉判讀。然而,這種「多模型接力」模式雖然能完成任務,卻容易因反覆推論增加延遲,也可能在不同模型轉換過程中造成上下文斷裂,進一步推升成本與誤差。
輝達此次推出的 Nemotron 3 Nano Omni,便是針對這項痛點而來。這款開放式全模態推理模型可在影片、音訊、影像與文字之間進行進階推理,讓AI代理能在單一系統中維持更完整的情境理解。輝達表示,Nemotron 3 Nano Omni以領先的準確度與低成本表現,為開放式多模態模型建立效率新標竿,並在複雜文件智慧、影片理解與音訊理解等六項排行榜中名列前茅。
30B-A3B混合專家架構,最高提升9倍資料輸送量
在技術架構上,Nemotron 3 Nano Omni採用30B-A3B混合式混合專家(mixture-of-experts)架構,並整合視覺與音訊編碼器,因此不再需要額外仰賴獨立的感知模型。這使AI代理在面對螢幕畫面、語音、文件與影片等不同資料型態時,可用更精簡的流程完成推理。
輝達指出,這項設計可在不犧牲回應速度與品質的情況下,降低推論成本、提升可擴展性,讓AI代理更接近企業大規模導入所需的效率門檻。從應用場景來看,Nemotron 3 Nano Omni的第一個重點是電腦操作代理。這類AI代理需要理解圖形使用者介面、判讀螢幕內容,並掌握使用者介面隨時間變化的狀態。
輝達表示,H Company最新的電腦操作代理便由Nemotron 3 Nano Omni驅動,並採用1920×1080像素的原生輸入解析度,以支援高保真度的視覺推理。在OSWorld基準測試初步評估中,這項整合於複雜圖形介面導航方面展現明顯進展。
鎖定電腦操作代理,PDF、表格與圖表都能納入推理
第二個場景是文件智慧。企業內部大量知識仍分散於PDF、圖表、表格、簡報、螢幕截圖與混合媒體內容之中。Nemotron 3 Nano Omni可協助AI代理在視覺結構與文字內容之間建立連貫推理能力,讓企業在分析、稽核、合規與知識管理流程中,更有效率地處理複雜文件。
影音理解強化客服、研究與監控流程
第三個場景則是影音理解。對客服、研究、監控與營運管理等應用而言,AI代理不只需要讀懂文字摘要,也必須能將「說了什麼」、「畫面出現什麼」以及「相關文件記錄」放在同一個脈絡中理解。輝達強調,Nemotron 3 Nano Omni能維持音訊與影片的情境脈絡,避免把不同資料來源切割成零散摘要,進一步提升代理型工作流程的判斷品質。
鴻海、Palantir率先採用,戴爾與Oracle評估導入
企業採用情況也成為這次發表的關鍵看點。輝達表示,目前已採用 Nemotron 3 Nano Omni的AI與軟體公司包括Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海科技集團、H Company、Palantir與Pyler;戴爾科技集團、Docusign、Infosys、K-Dense、Lila、Oracle與Zefr則正在評估採用該模型。對台灣產業而言,鴻海名列率先採用企業之一,也讓這款模型與台灣AI伺服器、智慧製造及企業AI應用生態產生更直接連結。
H Company:這不只是速度提升,而是AI代理感知方式的轉變
H Company執行長 Gautier Cloix表示,若要打造實用的AI代理,就不能讓模型花上數秒來解析螢幕畫面。他指出:「透過採用 Nemotron 3 Nano Omni,我們的代理能快速解析 Full HD螢幕錄影,這是過去難以實現的。這不只是速度提升,而是我們的代理在即時數位環境中感知與互動方式的根本性轉變。」這段說法也凸顯輝達此次發表的重點,並非只是讓模型跑得更快,而是讓AI代理能更即時、更完整地理解數位工作環境。
開放權重與部署彈性,鎖定企業私有化與在地部署需求
除了效率與應用場景,開放性與部署彈性也是 Nemotron 3 Nano Omni的另一個主軸。輝達表示,該模型隨開放權重、資料集與訓練技術一同發布,讓組織能對模型客製化與部署方式擁有更高透明度與控制權。開發者可使用 NVIDIA NeMo等工具,針對特定領域應用進行客製化、評估與最佳化;對於需要符合監管、主權AI或資料在地化要求的企業與政府機構而言,開放式模型也提供更具彈性的導入路徑。
Nemotron系列下載破5,000萬次,Omni版本延伸至代理型AI
輝達指出,Nemotron 3系列包含Nano、Super與Ultra模型,過去一年已累積超過5,000萬次下載;此次Omni版本則將該系列能力進一步延伸至多模態與代理型AI領域。Nemotron 3 Nano Omni目前已於Hugging Face、OpenRouter與build.nvidia.com上架,並以NVIDIA NIM微服務形式提供,也可透過輝達雲端合作夥伴、推論平台與雲端服務供應商生態系取得。 (相關報導: 輝達量子AI概念股起飛!為何台廠金寶、仁寶擠進第一梯隊,卡位關鍵曝光 | 更多文章 )
隨著企業AI應用從聊天機器人邁向可執行任務的代理型AI,模型能否同時理解文字、聲音、影像與操作畫面,將成為下一波競爭關鍵。輝達透過Nemotron 3 Nano Omni,把全模態推理、開放部署與企業級效率整合到同一套模型中,試圖讓AI代理從「能回答」進一步走向「能看懂、聽懂並採取行動」的新階段。















































