核心概念

NVIDIA 於 2026 年 5 月 23 日在 Hugging Face 發布 Nemotron-Labs Diffusion 系列——一套將自迴歸(AR)與擴散語言模型(DLM)能力整合於同一架構的創新模型系列。

傳統自迴歸模型的根本瓶頸

自迴歸 LLM 逐 token 生成的設計,讓每次前向傳遞都需要載入全部模型權重,卻只產出一個 token。現代 GPU 的計算能力遠超記憶體頻寬,結果是大部分時間花在「搬資料」而非「真正計算」——GPU 本質上在空轉等待。擴散語言模型換了一個思路:一次生成一整個 token「塊」(block),再通過多輪迭代去噪(denoising)逐步優化。這種並行生成方式能充分填滿 GPU 計算時間,同時保留了 AR 模型不具備的能力:回頭修正已生成的 token

Nemotron-Labs 的統一架構哲學

NVIDIA 的核心設計決策是:AR 和擴散不該是兩個分開的模型家族,而是同一模型在部署時選用的不同推理策略。Nemotron-Labs Diffusion 採用聯合訓練——同時優化 AR 和擴散目標,在保留 AR 精度優勢的同時,獲得並行生成能力。技術基礎來自 Efficient-DLM 研究,核心是塊級注意力機制(block-wise attention)。

結果是一個 checkpoint 同時支援三種模式,開發者不需修改應用程式碼,只需部署設定切換。

三種推理模式

模式 機制 速度提升(TPF)
自迴歸(AR) 標準左到右生成,精度基準
擴散模式(FastDiffuser) 32-token 塊並行生成,信心閾值決定提交時機 2.6×
線性自推測 擴散草稿 + AR 驗證,無損輸出(溫度=0)
二次自推測 更深層推測,B200 實測 865 tok/s 6.4×

自推測模式在 B200 硬體上實測約 865 tok/s,是純 AR 基線的 4 倍,且當溫度設為 0 時輸出結果與 AR 完全一致。

關鍵要點

  • 精度不退步:Nemotron-Labs Diffusion 8B 相比 Qwen3 8B 平均精度提升 1.2%,速度提升是在精度相當甚至更好的基礎上達成的
  • Fill-in-the-Middle 天然優勢:擴散模型可修改序列中間位置的 token,不依賴因果約束,在程式碼補全、文件編輯場景有結構性優勢
  • 推理預算可控:減少去噪步驟數可實時調整計算成本,適合資源受限的部署環境
  • 模型規格完整:提供 3B、8B、14B 文字模型及 8B VLM,附基礎模型與指令微調版本;文字模型採 NVIDIA Nemotron 開源授權(商業友好)
  • 部署門檻低:現通過 SGLang 框架支援,同一服務可按需切換三種模式

實務應用

場景對應推薦

  • AR 模式 → 高精度要求(評估、複雜推理)
  • FastDiffuser → 一般對話、批量生成、成本敏感場景
  • 自推測 → 延遲敏感 API、即時互動、batch size=1 的單查詢部署

與現有知識的連結:與 NVIDIA Nemotron 3 Nano Omni——長上下文全模態模型 同屬 Nemotron 系列,但方向不同——後者擴展模態覆蓋,Diffusion 系列解決推論效率問題。相比 非同步連續批次推論:LLM 推論的 CPU/GPU 並行加速 從推理框架層優化,擴散語言模型在模型訓練層面解決 GPU 利用率,屬於更根本的架構革新。

延伸觀點

擴散語言模型的加速研究在 2025-2026 年快速成熟,多個獨立研究驗證了幾個共同發現:

並行生成的加速空間比想像中大。FlashDLM(arXiv 2505.21467)通過 FreeCache(跨去噪步驟重用穩定的 KV 投影)加上輕量 AR 監督的 Guided Diffusion,達到平均 12.14 倍端對端加速,首次讓擴散模型在延遲上與同尺寸 AR 模型持平甚至更快。DyLLM(arXiv 2603.08026)則發現另一個利用方向:擴散去噪的各步驟中,大部分 token 表徵保持穩定,只有少數「顯著 token」(salient tokens)需要更新。通過餘弦相似度偵測這些 token 並只對它們做完整計算,DyLLM 達到 9.6 倍吞吐量提升,且不需要模型重訓。

擴散模型生成的文本在語言特性上與 AR 有系統性差異。arXiv 2605.12522 的研究比較兩類模型輸出,發現 DLM 生成的文本 n-gram 熵較低(用詞更集中)、語義連貫性更高、語義多樣性也更好。根本原因拆解為兩層:訓練目標的雙向上下文處理提升了語義品質,而置信度導向的重遮蔽解碼策略則導致了熵的降低。這意味著 DLM 和 AR 各有語言風格傾向,選型時除速度外也可考量文本特性的差異。

這些研究共同指向一個趨勢:擴散語言模型的理論速度上限(光速文字生成)並不遙遠,真正的工程挑戰已從「能不能做到」轉向「如何在精度與速度間精細調控」。Nemotron-Labs 的三模式統一架構,提供了一個目前最接近生產可用的答案。

反向連結

以下頁面引用了本頁: