核心概念

NVIDIA Nemotron 3 Nano Omni 是 Nemotron 多模態系列的最新一代,從原本的視覺語言模型(VLM)擴展為真正的全模態系統,同時處理文字、圖像、影片與音訊。模型大小為 30B 參數、3B 激活(Mixture-of-Experts 架構),在多份文件理解、影音聯合推理、語音辨識與 GUI 代理操作上均達到開源模型一線水準。

架構設計

模型採用 encoder-projector-decoder 三段式設計,核心 LLM backbone 為 Nemotron 3 Nano 30B-A3B,連接兩個獨立的感知編碼器:

  • 視覺:C-RADIOv4-H,支援動態解析度(每張圖 1,024–13,312 個 16×16 patches,等效 512²–1840² 像素),不再使用固定 tiling,可保留文件、表格、截圖的細粒度結構
  • 音訊:Parakeet-TDT-0.6B-v2,原生 16kHz 輸入,支援最長 1,200 秒(20 分鐘),LLM 層 context 窗口可承接 5+ 小時音訊

LLM backbone 混合三種計算單元:23 個 Mamba 選擇性狀態空間層(長序列效率)、23 個 MoE 層(128 experts、top-6 路由 + 1 個共享 expert)、6 個 Grouped-Query Attention 層(維持全局交互能力)。三者混搭讓模型在處理超長多模態輸入時不需在效率與表達力之間二選一。

影片壓縮:Conv3D + EVS

影片 token 預算的管控是全模態模型的核心挑戰。Nemotron 3 Nano Omni 用兩層壓縮處理:

  1. Conv3D tubelet 嵌入:每兩幀融合為一個「tubelet」再送入 ViT,直接將 vision tokens 砍半;相同 token 預算下可放入兩倍幀數
  2. EVS(Efficient Video Sampling):推理時在視覺編碼器之後動態丟棄「靜態 token」,只保留幀間有變化的「動態 token」;第一幀完整保留作為基準

兩者疊加後,影片理解系統效率比 Qwen3-Omni 同類模型高 9.2 倍(固定每使用者互動頻率門檻下的系統吞吐量)。

關鍵要點

  • 五大使用場景:長文件分析(100+ 頁合約、技術文件、表格跨頁引用)、ASR 語音辨識、長影音聯合理解(含旁白的螢幕錄製、會議影片)、GUI 代理電腦操作、多模態推理
  • 訓練管線:H100 叢集 32–128 節點,使用 Megatron-LM + Transformer Engine,SFT 後接 NeMo-RL 強化學習;RL 引入 Omni RL 多模態驗證套件,涵蓋多選、數學、GUI 定位、ASR,並故意加入無法回答的情境訓練模型「適時棄答」
  • 合成資料:從真實 PDF 語料庫用 NeMo Data Designer 生成約 1,140 萬筆合成 QA pairs(約 45B tokens),帶來 MMLongBench-Doc 整體準確率 2.19 倍提升
  • 基準成績亮點:MMLongBench-Doc 57.5(vs. Qwen3-Omni 49.5)、OSWorld GUI 任務 47.4(vs. Qwen3-Omni 29.0)、Video-MME 72.2(vs. Qwen3-Omni 70.5)、VoiceBench 89.4(vs. Qwen3-Omni 88.8)
  • 開源程度:BF16 / FP8 / NVFP4 三種精度 checkpoint 均公開於 Hugging Face;部分訓練程式碼開源(Megatron-Bridge、NeMo-RL、NeMo Data Designer SDG recipes)

實務應用

文件理解 pipeline:模型可一次送入 100+ 頁 PDF,跨頁檢索財務指標後計算衍生數字,免去傳統 RAG 的 chunk 切割與召回誤差,對合規文件審查、研究報告摘要特別有價值。

影音代理:配合 GUI 環境,模型可解讀截圖、追蹤 UI 狀態、規劃操作序列(如 OSWorld 測試中的多步驟政府網站導覽任務)。比起純視覺 VLM,Omni 版本可同時接收螢幕畫面與旁白音訊,減少指令歧義。

多模態交叉驗證:在簡報與旁白分離的場景(如教學影片),模型能對比投影片文字與講師口語,識別「投影片未提到但講師補充」的資訊,適用於會議紀錄、培訓材料知識萃取。

部署考量:NVFP4 量化版本可在資源受限的環境推理,FP8 版本適合企業 A100 / H100 部署。Conv3D + EVS 的設計讓影片理解延遲顯著低於逐幀處理,多文件場景系統吞吐量提升 7.4 倍。

延伸觀點

全模態模型的架構趨勢正從「各模態各自訓練、最後拼接」走向「共用 backbone 內部聯合推理」。Nemotron 3 Nano Omni 的設計代表兩個關鍵賭注:

Mamba-Transformer-MoE 混合架構作為長上下文多模態的基礎,比純 Transformer 更有效率;但目前公開評測(如 WorldSense 55.4 vs. Qwen3-Omni 54.0)差距仍在誤差範圍,架構優勢是否能在更長序列(>1M tokens)下拉開差距,值得持續追蹤。

原生音訊與影片的聯合 token 化是比「文字轉錄後再送 LLM」更強的設計,因為音訊時序與視覺時序可在 backbone 內部對齊,不依賴外部 ASR 的誤差邊界。這個設計在AI Agent 設計模式的多步驟代理場景中特別有意義——代理可以「聽+看」同步感知環境狀態,而非僅依賴截圖。

Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略相比,兩者都採用多階段 SFT + RL 訓練,但 Nemotron 的 Omni RL 明確加入「故意無法回答的情境」來抑制幻覺,是值得借鑑的對齊策略。

反向連結

以下頁面引用了本頁: