核心概念
Allen Institute for AI(Ai2)於 2026 年 5 月發表 EMO(Emergent Modularity from Experts)——一個透過預訓練讓模組化結構自然湧現的混合專家模型(Mixture-of-Experts, MoE)。EMO 有 1B 活躍參數、14B 總參數(128 個專家,每次激活 8 個),在 1 兆個 tokens 上預訓練而成。
傳統 MoE 的困境
現有 MoE 模型存在「偽稀疏性」問題:雖然每次推理只激活部分專家,但不同 token 會路由到不同的專家組合,導致整個輸入序列推理時,實際幾乎所有專家都被用到。更根本的問題在於專家的專門化方向——標準 MoE 傾向根據表層句法特徵(介詞、定冠詞、系動詞)分群,而非根據語意域(健康醫療、政治、科技)。
結果是:你無法「只載入健康醫療子集」來回答健康問題——健康文章中每個 token 在標準 MoE 裡,是依據它是否為介詞、定冠詞等特徵被路由,而非文章主題。
EMO 的核心突破:文件級約束
EMO 用一個優雅的設計解決這個問題:讓同一份文件內所有 token 共用相同的專家子集。
具體做法:
- Router 先計算文件中所有 token 的平均專家偏好
- 根據平均偏好,為整份文件選定一個固定的「專家池」
- 文件內所有 token 只能路由到這個池內的專家
這個「文件級路由(document-level routing)」以文件邊界作為弱監督信號,讓語意相似的內容自然聚集到相同的專家組,無需任何人工預定義的域標籤。
訓練穩定性設計:EMO 在訓練中隨機採樣池大小——有時強制使用小池(強模組化),有時允許大池(更靈活)。這讓單一模型在推理時能彈性調整使用多少比例的專家。
負載均衡的相容性:文件級約束看似與負載均衡目標衝突(防止模型只用少數幾個專家),EMO 改用全局負載均衡——跨足夠多文件後,每個專家仍被均勻使用。個別文件限制在小池,全局仍達到分散負載的效果,兩者相輔相成。
專家聚類的質變
EMO 與標準 MoE 最直觀的對比,在於專家聚類的語意內容:
| EMO | 標準 MoE | |
|---|---|---|
| 聚類主題 | 健康醫療、新聞報道、美國政治、電影音樂 | 介詞、專有名詞、系動詞、定冠詞 |
| 特徵層次 | 高層語意域 | 低層句法特徵 |
| 可組合性 | 高(子集即功能模組) | 低(子集缺乏語意一致性) |
健康文章在 EMO 中,幾乎每個 token 都路由到「健康醫療」聚類;同樣的文章在標準 MoE 中,頂部聚類卻是「所有格與定冠詞」。
關鍵要點
- 選擇性使用的魯棒性:使用 12.5%(16/128)的專家,EMO 性能只下降約 3%;同規模標準 MoE 在相同條件下接近隨機性能
- 選擇成本極低:識別哪個專家子集適合某任務,只需少量 few-shot 示例,不需要完整驗證集
- Pareto 邊界突破:在記憶體-準確度的效率曲線上,EMO 的專家子集優於「從零訓練相同預算固定大小模型」的基線
- 全模型性能保持:使用所有 128 個專家時,EMO 與標準 MoE 基線相當——模組化目標不損害通用能力
- 全部開源:訓練程式碼(GitHub)、模型權重(HF Hub)、基線對照模型、互動式聚類視覺化工具全數公開
實務應用
EMO 的設計使「按語意域裁切模型」成為可能:
資源受限環境部署:只載入特定任務相關的專家子集,記憶體需求可降至原本的 12.5%,性能損失不到 5%。邊緣設備或特化服務器場景特別受益。
特化模型快速組裝:從 EMO 中選出健康醫療群組的專家子集,不需重新訓練或微調,即可得到具備合理特化能力的模型。這是一種介於「通用模型」和「領域微調模型」之間的新路徑。
可解釋性研究:EMO 的專家-語意域對應關係,讓「這個模型怎麼處理這類內容」有了相對清晰的結構,對 AI 安全與可解釋性研究有直接價值——可追問「為什麼這個文件被路由到這個專家組」。
與現有剪枝技術相容:EMO 驗證可與 Easy-EP 等現有專家修剪方法結合。作者指出的開放問題包括:如何更新模組而不破壞全模型性能,以及推理時能否動態發現新領域的對應專家群組。EMO 目前更像「湧現式模組化的 proof-of-concept」,實際部署工具鏈仍待社群建立。
相關頁面:LLM主流地位與替代路徑 · Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略 · NVIDIA Nemotron 3 Nano Omni——長上下文全模態模型 · Hugging Face 推論供應商生態系:DeepInfra 整合實錄
延伸觀點
來自 3 篇學術文獻的交叉驗證(2024-2026):
稀疏性是可解釋性的結構性前提(2 篇以上共同指向)。近期研究確認,稀疏路由程度越高,專家的「單義性(monosemanticity)」越強——每個專家傾向只處理一類緊密相關的特徵組合,而非混雜多種角色。這個連續性關係在稠密模型中不存在。EMO 的文件級約束正是在此基礎上再進一步:不只讓稀疏路由造就單義性,還讓路由的對象在語意層次上變得一致。
語意特化的層次爭議(值得留意的分歧)。對標準 MoE 的詮釋研究顯示,自然湧現的專家特化更偏「精細任務操作」(如閉合 LaTeX 括號、處理化學命名法),而非寬泛的域級分工(如「醫療」、「政治」)。這與標準 MoE 容易學到句法特徵而非語意域的觀察一致,也進一步凸顯 EMO 的貢獻:若不施加文件級約束,語意域級的特化幾乎不會自然出現。EMO 的「健康醫療群組」因此是被結構設計出來的,而非從資料中自然浮現的。
可解釋性與性能不再對立(2 篇以上共同確認)。過去的假設是「追求可解釋性會犧牲性能」,但稀疏 MoE 的研究反駁了這一點。更高稀疏性的架構在保持性能的同時,天然提供更好的解釋結構——而 EMO 的 Pareto 曲線突破也在實驗上支持這個方向:語意模組化和整體性能可以同時達成,不需要取捨。
反向連結
以下頁面引用了本頁: