Nemotron-Labs Diffusion：擴散語言模型突破自迴歸推論瓶頸

核心概念

NVIDIA 於 2026 年 5 月 23 日在 Hugging Face 發布 Nemotron-Labs Diffusion 系列——一套將自迴歸（AR）與擴散語言模型（DLM）能力整合於同一架構的創新模型系列。

傳統自迴歸模型的根本瓶頸

自迴歸 LLM 逐 token 生成的設計，讓每次前向傳遞都需要載入全部模型權重，卻只產出一個 token。現代 GPU 的計算能力遠超記憶體頻寬，結果是大部分時間花在「搬資料」而非「真正計算」——GPU 本質上在空轉等待。擴散語言模型換了一個思路：一次生成一整個 token「塊」（block），再通過多輪迭代去噪（denoising）逐步優化。這種並行生成方式能充分填滿 GPU 計算時間，同時保留了 AR 模型不具備的能力：回頭修正已生成的 token。

Nemotron-Labs 的統一架構哲學

NVIDIA 的核心設計決策是：AR 和擴散不該是兩個分開的模型家族，而是同一模型在部署時選用的不同推理策略。Nemotron-Labs Diffusion 採用聯合訓練——同時優化 AR 和擴散目標，在保留 AR 精度優勢的同時，獲得並行生成能力。技術基礎來自 Efficient-DLM 研究，核心是塊級注意力機制（block-wise attention）。

結果是一個 checkpoint 同時支援三種模式，開發者不需修改應用程式碼，只需部署設定切換。

三種推理模式

模式	機制	速度提升（TPF）
自迴歸（AR）	標準左到右生成，精度基準	1×
擴散模式（FastDiffuser）	32-token 塊並行生成，信心閾值決定提交時機	2.6×
線性自推測	擴散草稿 + AR 驗證，無損輸出（溫度=0）	6×
二次自推測	更深層推測，B200 實測 865 tok/s	6.4×

自推測模式在 B200 硬體上實測約 865 tok/s，是純 AR 基線的 4 倍，且當溫度設為 0 時輸出結果與 AR 完全一致。

關鍵要點

精度不退步：Nemotron-Labs Diffusion 8B 相比 Qwen3 8B 平均精度提升 1.2%，速度提升是在精度相當甚至更好的基礎上達成的
Fill-in-the-Middle 天然優勢：擴散模型可修改序列中間位置的 token，不依賴因果約束，在程式碼補全、文件編輯場景有結構性優勢
推理預算可控：減少去噪步驟數可實時調整計算成本，適合資源受限的部署環境
模型規格完整：提供 3B、8B、14B 文字模型及 8B VLM，附基礎模型與指令微調版本；文字模型採 NVIDIA Nemotron 開源授權（商業友好）
部署門檻低：現通過 SGLang 框架支援，同一服務可按需切換三種模式

實務應用

場景對應推薦：

AR 模式 → 高精度要求（評估、複雜推理）
FastDiffuser → 一般對話、批量生成、成本敏感場景
自推測 → 延遲敏感 API、即時互動、batch size=1 的單查詢部署

與現有知識的連結：與 NVIDIA Nemotron 3 Nano Omni——長上下文全模態模型同屬 Nemotron 系列，但方向不同——後者擴展模態覆蓋，Diffusion 系列解決推論效率問題。相比非同步連續批次推論：LLM 推論的 CPU/GPU 並行加速從推理框架層優化，擴散語言模型在模型訓練層面解決 GPU 利用率，屬於更根本的架構革新。

延伸觀點

擴散語言模型的加速研究在 2025-2026 年快速成熟，多個獨立研究驗證了幾個共同發現：

並行生成的加速空間比想像中大。FlashDLM（arXiv 2505.21467）通過 FreeCache（跨去噪步驟重用穩定的 KV 投影）加上輕量 AR 監督的 Guided Diffusion，達到平均 12.14 倍端對端加速，首次讓擴散模型在延遲上與同尺寸 AR 模型持平甚至更快。DyLLM（arXiv 2603.08026）則發現另一個利用方向：擴散去噪的各步驟中，大部分 token 表徵保持穩定，只有少數「顯著 token」（salient tokens）需要更新。通過餘弦相似度偵測這些 token 並只對它們做完整計算，DyLLM 達到 9.6 倍吞吐量提升，且不需要模型重訓。

擴散模型生成的文本在語言特性上與 AR 有系統性差異。arXiv 2605.12522 的研究比較兩類模型輸出，發現 DLM 生成的文本 n-gram 熵較低（用詞更集中）、語義連貫性更高、語義多樣性也更好。根本原因拆解為兩層：訓練目標的雙向上下文處理提升了語義品質，而置信度導向的重遮蔽解碼策略則導致了熵的降低。這意味著 DLM 和 AR 各有語言風格傾向，選型時除速度外也可考量文本特性的差異。

這些研究共同指向一個趨勢：擴散語言模型的理論速度上限（光速文字生成）並不遙遠，真正的工程挑戰已從「能不能做到」轉向「如何在精度與速度間精細調控」。Nemotron-Labs 的三模式統一架構，提供了一個目前最接近生產可用的答案。

反向連結

以下頁面引用了本頁：

NVIDIA Nemotron 3 Nano Omni——長上下文全模態模型（文章精選）
Amazing Digital Dentures：Hackathon 失敗實錄與 LLM 程式碼生成的邊界（文章精選）
Nemotron 3.5 Content Safety：企業多模態 AI 內容安全的可定制解決方案（文章精選）
North Mini Code：Cohere 首款開發者 MoE 程式碼模型（文章精選）
超越LoRA：PEFT技術比較基準測試（文章精選）
NVIDIA NeMo AutoModel：MoE 微調的 3.7 倍加速突破（文章精選）
OLMo Hybrid：混合模型預測哪些標記更好（文章精選）
DiScoFormer：密度與分數統一估計的即插即用 Transformer（文章精選）
AI 代理的數據基礎：NVIDIA 開放合成數據倡議（文章精選）