效率飆升9倍！輝達推一站式全模態AI代理模型，鴻海率先採用、戴爾與Oracle評估中 | 魏鑫陽

AI代理正從單純回答文字問題，進入能看螢幕、聽音訊、讀文件、理解影音脈絡的下一階段。輝達（NVIDIA）今（29）日發表NVIDIA Nemotron 3 Nano Omni，主打將視覺、音訊與語言推理整合進單一開放式多模態模型，讓企業與開發者不必再讓AI代理在多個模型之間來回切換，藉此降低延遲、減少成本與脈絡流失問題。輝達指出，這款模型在相同互動性下，相較其他開放式全模態模型可達到最高9倍資料輸送量，鎖定電腦操作、文件智慧與影音推理等企業級代理型AI工作流程。

多模型接力成企業痛點，延遲、成本與脈絡斷裂難避免

過去企業導入AI代理時，常見做法是以不同模型分別處理視覺、語音與文字任務。例如客服代理可能同時需要解析螢幕錄影、分析通話音訊，並檢查內部資料記錄；金融領域的AI代理也可能需要在PDF、試算表、圖表與語音備忘錄之間交叉判讀。然而，這種「多模型接力」模式雖然能完成任務，卻容易因反覆推論增加延遲，也可能在不同模型轉換過程中造成上下文斷裂，進一步推升成本與誤差。

輝達此次推出的 Nemotron 3 Nano Omni，便是針對這項痛點而來。這款開放式全模態推理模型可在影片、音訊、影像與文字之間進行進階推理，讓AI代理能在單一系統中維持更完整的情境理解。輝達表示，Nemotron 3 Nano Omni以領先的準確度與低成本表現，為開放式多模態模型建立效率新標竿，並在複雜文件智慧、影片理解與音訊理解等六項排行榜中名列前茅。

30B-A3B混合專家架構，最高提升9倍資料輸送量

在技術架構上，Nemotron 3 Nano Omni採用30B-A3B混合式混合專家（mixture-of-experts）架構，並整合視覺與音訊編碼器，因此不再需要額外仰賴獨立的感知模型。這使AI代理在面對螢幕畫面、語音、文件與影片等不同資料型態時，可用更精簡的流程完成推理。

輝達指出，這項設計可在不犧牲回應速度與品質的情況下，降低推論成本、提升可擴展性，讓AI代理更接近企業大規模導入所需的效率門檻。從應用場景來看，Nemotron 3 Nano Omni的第一個重點是電腦操作代理。這類AI代理需要理解圖形使用者介面、判讀螢幕內容，並掌握使用者介面隨時間變化的狀態。

輝達表示，H Company最新的電腦操作代理便由Nemotron 3 Nano Omni驅動，並採用1920×1080像素的原生輸入解析度，以支援高保真度的視覺推理。在OSWorld基準測試初步評估中，這項整合於複雜圖形介面導航方面展現明顯進展。

鎖定電腦操作代理，PDF、表格與圖表都能納入推理

第二個場景是文件智慧。企業內部大量知識仍分散於PDF、圖表、表格、簡報、螢幕截圖與混合媒體內容之中。Nemotron 3 Nano Omni可協助AI代理在視覺結構與文字內容之間建立連貫推理能力，讓企業在分析、稽核、合規與知識管理流程中，更有效率地處理複雜文件。

影音理解強化客服、研究與監控流程

第三個場景則是影音理解。對客服、研究、監控與營運管理等應用而言，AI代理不只需要讀懂文字摘要，也必須能將「說了什麼」、「畫面出現什麼」以及「相關文件記錄」放在同一個脈絡中理解。輝達強調，Nemotron 3 Nano Omni能維持音訊與影片的情境脈絡，避免把不同資料來源切割成零散摘要，進一步提升代理型工作流程的判斷品質。

鴻海、Palantir率先採用，戴爾與Oracle評估導入

企業採用情況也成為這次發表的關鍵看點。輝達表示，目前已採用 Nemotron 3 Nano Omni的AI與軟體公司包括Aible、Applied Scientific Intelligence（ASI）、Eka Care、鴻海科技集團、H Company、Palantir與Pyler；戴爾科技集團、Docusign、Infosys、K-Dense、Lila、Oracle與Zefr則正在評估採用該模型。對台灣產業而言，鴻海名列率先採用企業之一，也讓這款模型與台灣AI伺服器、智慧製造及企業AI應用生態產生更直接連結。

H Company：這不只是速度提升，而是AI代理感知方式的轉變

H Company執行長 Gautier Cloix表示，若要打造實用的AI代理，就不能讓模型花上數秒來解析螢幕畫面。他指出：「透過採用 Nemotron 3 Nano Omni，我們的代理能快速解析 Full HD螢幕錄影，這是過去難以實現的。這不只是速度提升，而是我們的代理在即時數位環境中感知與互動方式的根本性轉變。」這段說法也凸顯輝達此次發表的重點，並非只是讓模型跑得更快，而是讓AI代理能更即時、更完整地理解數位工作環境。

開放權重與部署彈性，鎖定企業私有化與在地部署需求

除了效率與應用場景，開放性與部署彈性也是 Nemotron 3 Nano Omni的另一個主軸。輝達表示，該模型隨開放權重、資料集與訓練技術一同發布，讓組織能對模型客製化與部署方式擁有更高透明度與控制權。開發者可使用 NVIDIA NeMo等工具，針對特定領域應用進行客製化、評估與最佳化；對於需要符合監管、主權AI或資料在地化要求的企業與政府機構而言，開放式模型也提供更具彈性的導入路徑。

Nemotron系列下載破5,000萬次，Omni版本延伸至代理型AI

輝達指出，Nemotron 3系列包含Nano、Super與Ultra模型，過去一年已累積超過5,000萬次下載；此次Omni版本則將該系列能力進一步延伸至多模態與代理型AI領域。Nemotron 3 Nano Omni目前已於Hugging Face、OpenRouter與build.nvidia.com上架，並以NVIDIA NIM微服務形式提供，也可透過輝達雲端合作夥伴、推論平台與雲端服務供應商生態系取得。（相關報導：輝達量子AI概念股起飛！為何台廠金寶、仁寶擠進第一梯隊，卡位關鍵曝光｜更多文章）

隨著企業AI應用從聊天機器人邁向可執行任務的代理型AI，模型能否同時理解文字、聲音、影像與操作畫面，將成為下一波競爭關鍵。輝達透過Nemotron 3 Nano Omni，把全模態推理、開放部署與企業級效率整合到同一套模型中，試圖讓AI代理從「能回答」進一步走向「能看懂、聽懂並採取行動」的新階段。