AWS 基礎模型訓練與推論四層架構

核心概念

Hugging Face 與 AWS 合作發布的這篇技術文章，系統性梳理了在 AWS 上進行基礎模型訓練與推論所需的四個基礎層次。文章的核心論點是：基礎模型的規模化現在橫跨三個不同的訓練階段——預訓練（pre-training）、後訓練（SFT/RL，如 RLHF、DPO）、測試時計算（test-time compute）——而這三個階段都需要相似的底層基礎設施：緊密耦合的加速器、高頻寬網路，以及分散式儲存系統。

理解這四層架構的關鍵不在於每一層本身，而在於它們的相互依賴性：任何一層的配置錯誤（驅動程式、網路、儲存）都可能成為訓練效能的瓶頸，即使其他層都已優化也於事無補。這也是為何大型 AI 實驗室的基礎設施工程師，需要具備跨越硬體、系統軟體和 ML 框架的全棧診斷能力。

關鍵要點

第一層：基礎設施（算力、網路、儲存）

算力：AWS EC2 P 系列實例（P5、P5e、P6）配備 NVIDIA H100、H200、Blackwell B200/B300 GPU，是主力訓練硬體
網路：Elastic Fabric Adapter（EFA）提供 OS bypass RDMA，EFA v3/v4 比前代延遲降低 18-35%；高頻寬低延遲網路是分散式訓練的關鍵限制因子
儲存：三層設計——本地 NVMe（最快，揮發性）+ Amazon FSx for Lustre（並行檔案系統，適合訓練資料集）+ S3（持久性，適合 checkpoint 與模型保存）
規模擴展：EC2 UltraClusters 和 EC2 UltraServers 可以將 NVLink 域（原本限於單台機器）延伸到跨機器規模

第二層：資源編排（Orchestration）

Slurm：HPC 傳統主力，支援 job 層級原子性、拓撲感知排程、透過 GRES 管理 GPU 資源，適合需要明確資源保證的訓練作業
Kubernetes：宣告式方式管理，但需要額外擴充（Kueue、Volcano、NVIDIA KAI Scheduler）才能實現 gang scheduling 和拓撲感知排程
AWS 託管服務：ParallelCluster、AWS PCS、Amazon SageMaker HyperPod，後者提供 checkpointless training（節點故障時無損恢復）和彈性擴展

第三層：ML 軟體棧（五層）

硬體啟用層：GPU 驅動、GDRCopy、EFA 驅動、Lustre 客戶端
加速器運行時：CUDA、自訂 kernel（FlashAttention、Triton、CuTe）
通信層：NCCL + aws-ofi-nccl 外掛（讓 NCCL 使用 EFA 而非標準 TCP）
ML 框架：PyTorch（DDP、FSDP2）和 JAX
分散式框架：Hugging Face Transformers（通用）、NVIDIA Megatron Core（大規模並行）、veRL（RLHF）、vLLM 和 SGLang（推論）

第四層：可觀測性（Observability）

核心組合：Prometheus（指標收集）+ Grafana（視覺化）
AWS 託管版本：Amazon Managed Service for Prometheus + Amazon Managed Grafana（省去自行維運）
關鍵指標：DCGM-Exporter（GPU 健康、溫度、使用率）、EFA 流量統計、訓練吞吐量（tokens/second）、主動故障偵測

實務意義

這份文件的定位不是教學，而是工程師在做 AI 基礎設施決策時的地圖。幾個值得特別注意的實務含義：

NCCL + aws-ofi-nccl 是隱藏關鍵：大多數教學只談 NCCL，但在 AWS EFA 環境中，如果沒有正確安裝 aws-ofi-nccl 外掛，NCCL 會 fallback 到標準 TCP，通信頻寬大幅下降，且幾乎不會有明確的錯誤訊息，只是訓練速度莫名其妙偏慢。

Slurm vs Kubernetes 的選擇：Kubernetes 在通用 DevOps 場景佔主流，但在大規模 GPU 訓練中，Slurm 的資源保證模型（全部資源就緒才啟動）更適合 gang scheduling 的需求。兩者並不互斥，許多大型 AI 實驗室用 Kubernetes 管理推論，用 Slurm 管理訓練。

三個訓練階段共用基礎設施：預訓練、後訓練（SFT/RLHF）、測試時計算（如 chain-of-thought search）過去被視為不同類別的工作，但它們的底層需求收斂。這意味著一套好的基礎設施設計可以在整個模型開發週期複用，而不需要為每個階段客製化不同的計算環境。

延伸觀點

搜尋延伸文章後，有三個在多個來源中共同被強調的觀點：

1. EFA 網路的端到端配置成本遠高於硬體採購：包含 HuggingFace 自有的 H200 cluster 部署經驗與 AWS 官方案例，都指出 EFA 的正確配置（OS bypass 參數、NUMA 綁定、MTU 設定）是真正耗時的部分，而非硬體本身。aws-ofi-nccl 版本與 NCCL 版本的相容性問題是常見的無聲效能殺手。

2. 觀測性（Observability）正從可選項變成必要項：早期 GPU cluster 訓練失敗的主要原因是硬體故障，現在更多是「軟性故障」——某個節點的通信頻寬下降 10%，或某顆 GPU 的 SM 使用率偏低，這些問題在沒有 DCGM + 完整指標管線的情況下幾乎不可能診斷。這與 Microsoft NSDI 2026：分散式系統與 AI 交匯的前沿突破中強調的可觀測性優先原則一致。

3. 推論基礎設施與訓練正在收斂：vLLM、SGLang 等推論框架的出現，讓「訓練一套基礎設施、推論另一套」的分離模式開始鬆動。vLLM V0 升級 V1：強化學習訓練的後端正確性優先原則記錄了 RL 訓練如何直接使用 vLLM 作為推論後端，這讓訓練與推論的基礎設施邊界進一步模糊。

反向連結

以下頁面引用了本頁：

MRC 超算網路協議：OpenAI 的多路徑可靠連接技術（文章精選）
Microsoft NSDI 2026：分散式系統與 AI 交匯的前沿突破（文章精選）
OpenAI 入駐 AWS Bedrock：GPT 模型、Codex 與託管代理三合一整合（文章精選）
Stargate 計畫：OpenAI 打造智能時代算力基礎設施（文章精選）
vLLM V0 升級 V1：強化學習訓練的後端正確性優先原則（文章精選）
PaddleOCR 3.5 整合 Transformers 後端（文章精選）
Delta Weight Sync in TRL：異步強化學習的百倍同步壓縮（文章精選）
TRL Delta Weight Sync：非同步 RL 訓練的增量權重傳輸協議（文章精選）
torch.profiler 入門指南：矩陣乘法帶你解碼 GPU 效能軌跡（文章精選）
OpenAI 前沿模型與 Codex 正式上線 AWS Bedrock（文章精選）
Hugging Face × Amazon SageMaker Studio：一鍵從模型發現到企業部署（文章精選）