核心概念

Allen Institute for AI(Ai2)於 2026 年 5 月發表 EMO(Emergent Modularity from Experts)——一個透過預訓練讓模組化結構自然湧現的混合專家模型(Mixture-of-Experts, MoE)。EMO 有 1B 活躍參數、14B 總參數(128 個專家,每次激活 8 個),在 1 兆個 tokens 上預訓練而成。

傳統 MoE 的困境

現有 MoE 模型存在「偽稀疏性」問題:雖然每次推理只激活部分專家,但不同 token 會路由到不同的專家組合,導致整個輸入序列推理時,實際幾乎所有專家都被用到。更根本的問題在於專家的專門化方向——標準 MoE 傾向根據表層句法特徵(介詞、定冠詞、系動詞)分群,而非根據語意域(健康醫療、政治、科技)。

結果是:你無法「只載入健康醫療子集」來回答健康問題——健康文章中每個 token 在標準 MoE 裡,是依據它是否為介詞、定冠詞等特徵被路由,而非文章主題。

EMO 的核心突破:文件級約束

EMO 用一個優雅的設計解決這個問題:讓同一份文件內所有 token 共用相同的專家子集。

具體做法:

  1. Router 先計算文件中所有 token 的平均專家偏好
  2. 根據平均偏好,為整份文件選定一個固定的「專家池」
  3. 文件內所有 token 只能路由到這個池內的專家

這個「文件級路由(document-level routing)」以文件邊界作為弱監督信號,讓語意相似的內容自然聚集到相同的專家組,無需任何人工預定義的域標籤。

訓練穩定性設計:EMO 在訓練中隨機採樣池大小——有時強制使用小池(強模組化),有時允許大池(更靈活)。這讓單一模型在推理時能彈性調整使用多少比例的專家。

負載均衡的相容性:文件級約束看似與負載均衡目標衝突(防止模型只用少數幾個專家),EMO 改用全局負載均衡——跨足夠多文件後,每個專家仍被均勻使用。個別文件限制在小池,全局仍達到分散負載的效果,兩者相輔相成。

專家聚類的質變

EMO 與標準 MoE 最直觀的對比,在於專家聚類的語意內容:

EMO 標準 MoE
聚類主題 健康醫療、新聞報道、美國政治、電影音樂 介詞、專有名詞、系動詞、定冠詞
特徵層次 高層語意域 低層句法特徵
可組合性 高(子集即功能模組) 低(子集缺乏語意一致性)

健康文章在 EMO 中,幾乎每個 token 都路由到「健康醫療」聚類;同樣的文章在標準 MoE 中,頂部聚類卻是「所有格與定冠詞」。


關鍵要點

  • 選擇性使用的魯棒性:使用 12.5%(16/128)的專家,EMO 性能只下降約 3%;同規模標準 MoE 在相同條件下接近隨機性能
  • 選擇成本極低:識別哪個專家子集適合某任務,只需少量 few-shot 示例,不需要完整驗證集
  • Pareto 邊界突破:在記憶體-準確度的效率曲線上,EMO 的專家子集優於「從零訓練相同預算固定大小模型」的基線
  • 全模型性能保持:使用所有 128 個專家時,EMO 與標準 MoE 基線相當——模組化目標不損害通用能力
  • 全部開源:訓練程式碼(GitHub)、模型權重(HF Hub)、基線對照模型、互動式聚類視覺化工具全數公開

實務應用

EMO 的設計使「按語意域裁切模型」成為可能:

資源受限環境部署:只載入特定任務相關的專家子集,記憶體需求可降至原本的 12.5%,性能損失不到 5%。邊緣設備或特化服務器場景特別受益。

特化模型快速組裝:從 EMO 中選出健康醫療群組的專家子集,不需重新訓練或微調,即可得到具備合理特化能力的模型。這是一種介於「通用模型」和「領域微調模型」之間的新路徑。

可解釋性研究:EMO 的專家-語意域對應關係,讓「這個模型怎麼處理這類內容」有了相對清晰的結構,對 AI 安全與可解釋性研究有直接價值——可追問「為什麼這個文件被路由到這個專家組」。

與現有剪枝技術相容:EMO 驗證可與 Easy-EP 等現有專家修剪方法結合。作者指出的開放問題包括:如何更新模組而不破壞全模型性能,以及推理時能否動態發現新領域的對應專家群組。EMO 目前更像「湧現式模組化的 proof-of-concept」,實際部署工具鏈仍待社群建立。

相關頁面:LLM主流地位與替代路徑 · Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略 · NVIDIA Nemotron 3 Nano Omni——長上下文全模態模型 · Hugging Face 推論供應商生態系:DeepInfra 整合實錄


延伸觀點

來自 3 篇學術文獻的交叉驗證(2024-2026):

稀疏性是可解釋性的結構性前提(2 篇以上共同指向)。近期研究確認,稀疏路由程度越高,專家的「單義性(monosemanticity)」越強——每個專家傾向只處理一類緊密相關的特徵組合,而非混雜多種角色。這個連續性關係在稠密模型中不存在。EMO 的文件級約束正是在此基礎上再進一步:不只讓稀疏路由造就單義性,還讓路由的對象在語意層次上變得一致。

語意特化的層次爭議(值得留意的分歧)。對標準 MoE 的詮釋研究顯示,自然湧現的專家特化更偏「精細任務操作」(如閉合 LaTeX 括號、處理化學命名法),而非寬泛的域級分工(如「醫療」、「政治」)。這與標準 MoE 容易學到句法特徵而非語意域的觀察一致,也進一步凸顯 EMO 的貢獻:若不施加文件級約束,語意域級的特化幾乎不會自然出現。EMO 的「健康醫療群組」因此是被結構設計出來的,而非從資料中自然浮現的。

可解釋性與性能不再對立(2 篇以上共同確認)。過去的假設是「追求可解釋性會犧牲性能」,但稀疏 MoE 的研究反駁了這一點。更高稀疏性的架構在保持性能的同時,天然提供更好的解釋結構——而 EMO 的 Pareto 曲線突破也在實驗上支持這個方向:語意模組化和整體性能可以同時達成,不需要取捨。

反向連結

以下頁面引用了本頁: