核心概念
LLM(大型語言模型)成為當代 AI 主流,根本原因在於 Transformer 架構的突破,以及「語言即通用介面」這個假設被大規模驗證。
規模效應(Scaling Law) 是最關鍵的驅動力。Kaplan et al.(2020)發現,模型參數量、訓練資料量、算力三者同步增加時,模型效能呈現可預測的冪次律提升。這在其他架構中從未被觀察到如此一致的規律,意味著只要繼續投入資源,效能就會持續改善,形成了資本與技術的正向飛輪。
泛化能力是第二個核心優勢。同一個模型可以處理翻譯、摘要、程式碼生成、推理、問答,無需為每個任務重新訓練。傳統的機器學習模型每個任務都需要獨立設計、獨立訓練,成本極高。
預訓練 + 微調(Pre-training + Fine-tuning)範式大幅降低了應用門檻。先在海量通用資料上預訓練取得世界知識,再以少量任務資料微調,比從零訓練省下 99% 以上的成本。RLHF(人類回饋強化學習)則進一步讓模型行為符合人類預期,這是 ChatGPT 能被大眾接受的技術基礎。
語言作為通用介面是 LLM 主流地位的哲學根基。幾乎所有人類知識、指令、邏輯都可以用文字表達,語言模型因此成為通用推理引擎。相比之下,影像、強化學習等模態的表達能力更窄,難以成為統一入口。
關鍵要點
主要的替代或互補 AI 模型路徑:
| 方式 | 代表技術 | 強項 | 現況 |
|---|---|---|---|
| 擴散模型(Diffusion) | Stable Diffusion、DALL-E | 圖像、音訊、影片生成 | 影像生成主流,與 LLM 互補 |
| 強化學習(RL) | AlphaGo、AlphaStar | 遊戲、機器人、最佳化 | 特定領域最強解法 |
| 圖神經網路(GNN) | AlphaFold | 分子結構、社群網路分析 | 科學計算領域主流 |
| 符號 AI / 規則系統 | 知識圖譜、Expert System | 可解釋性、確定性邏輯 | 復興中(LLM + 知識圖譜混合) |
| State Space Model(SSM) | Mamba | 長序列低成本處理 | 挑戰 Transformer 的新架構 |
| CNN / 傳統深度學習 | ResNet、YOLO | 圖像分類、物件偵測 | 視覺任務仍廣泛使用 |
- LLM 的核心限制:精確數學推理、長期規劃、物理世界互動
- o1/o3 的 Chain-of-Thought 與 AlphaCode 的強化學習混合,是補足這些缺口的主流方向
- 多模態模型(Gemini、GPT-4o)是 LLM + 擴散模型的融合趨勢
實務應用
選擇 AI 模型架構的實用判斷框架:
- 需要語言理解與生成 → LLM 首選
- 需要生成圖像、音訊、影片 → 擴散模型
- 需要在動態環境中連續決策 → 強化學習(如機器人、遊戲 AI)
- 需要分析分子、蛋白質、圖結構資料 → GNN(AlphaFold 類)
- 需要高可解釋性、確定性規則 → 符號 AI 或 LLM + 知識圖譜
- 需要處理超長序列且成本敏感 → SSM(Mamba 類架構)
相關頁面:LLM 語言思考品質、Harness Engineering
延伸觀點
Transformer 最核心的技術瓶頸是 O(n²) 二次方複雜度:每個 token 必須對其他所有 token 做 attention 計算,序列長度翻倍則計算量增加四倍。這在長文件、長對話場景中是硬性成本天花板(兩篇文章共同確認)。
Mamba 的突破在於將複雜度降至 O(n) 線性,推論速度快 5 倍、記憶體降低 7.8 倍,且能處理百萬 token 的超長序列——Transformer 物理上做不到的事。但代價是:Mamba 在邏輯推理、關聯性記憶等任務上明顯弱於 Transformer(兩篇文章共同確認)。
目前業界的解法是混合架構:Jamba(Transformer + Mamba + MoE)、NVIDIA Nemotron-H(92% Mamba2 + 8% attention),用 Mamba 負責長序列處理效率,保留少量 Transformer 區塊維持推理品質。這是「既要效率又要推理能力」的現實妥協。
新架構還面臨一個雞生蛋問題:需要千億參數規模才能真正驗證效能,但沒有大規模驗證就難以獲得訓練資源。這解釋了為什麼 Transformer 短期內不會被替代——不是因為它最好,而是因為它已被證明。
反向連結
以下頁面引用了本頁:
- AI Agent 設計模式
- AI 就業效應與 Jevons Paradox
- Harness Engineering
- LLM 語言思考品質
- RAG 檢索增強生成架構
- Prompt Engineering 進階技術:CoT、Few-shot 與提示鏈(技術與AI)
- GPT 小妖精事件:強化學習人格訓練的行為外洩(文章精選)
- Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略(文章精選)
- Hugging Face 推論供應商生態系:DeepInfra 整合實錄(文章精選)
- LLM推理驅動的太空船姿態控制:GRPO強化學習框架(研究速遞)
- LLaMA 3 自動履歷篩選:語意配對超越 ATS 關鍵字匹配(研究速遞)
- OpenAI 語音 AI 低延遲架構:WebRTC 大規模部署實錄(文章精選)
- EMO:混合專家模型的湧現式模組化(文章精選)
- 單模態 LLM 作為多模態 VLM 的偏好教師(研究速遞)
- Fine-tuning 與 LoRA:LLM 參數高效微調技術(技術與AI)
- LLM對齊微調比較:SFT、RLHF與DPO的HHH三維表現(研究速遞)
- 專業化勝過規模:AI 採購決策的分佈對齊變數(文章精選)
- Reachy Mini 本地化對話:語音 AI 管線的離線部署實錄(文章精選)