核心概念

LLM(大型語言模型)成為當代 AI 主流,根本原因在於 Transformer 架構的突破,以及「語言即通用介面」這個假設被大規模驗證。

規模效應(Scaling Law) 是最關鍵的驅動力。Kaplan et al.(2020)發現,模型參數量、訓練資料量、算力三者同步增加時,模型效能呈現可預測的冪次律提升。這在其他架構中從未被觀察到如此一致的規律,意味著只要繼續投入資源,效能就會持續改善,形成了資本與技術的正向飛輪。

泛化能力是第二個核心優勢。同一個模型可以處理翻譯、摘要、程式碼生成、推理、問答,無需為每個任務重新訓練。傳統的機器學習模型每個任務都需要獨立設計、獨立訓練,成本極高。

預訓練 + 微調(Pre-training + Fine-tuning)範式大幅降低了應用門檻。先在海量通用資料上預訓練取得世界知識,再以少量任務資料微調,比從零訓練省下 99% 以上的成本。RLHF(人類回饋強化學習)則進一步讓模型行為符合人類預期,這是 ChatGPT 能被大眾接受的技術基礎。

語言作為通用介面是 LLM 主流地位的哲學根基。幾乎所有人類知識、指令、邏輯都可以用文字表達,語言模型因此成為通用推理引擎。相比之下,影像、強化學習等模態的表達能力更窄,難以成為統一入口。

關鍵要點

主要的替代或互補 AI 模型路徑:

方式 代表技術 強項 現況
擴散模型(Diffusion) Stable Diffusion、DALL-E 圖像、音訊、影片生成 影像生成主流,與 LLM 互補
強化學習(RL) AlphaGo、AlphaStar 遊戲、機器人、最佳化 特定領域最強解法
圖神經網路(GNN) AlphaFold 分子結構、社群網路分析 科學計算領域主流
符號 AI / 規則系統 知識圖譜、Expert System 可解釋性、確定性邏輯 復興中(LLM + 知識圖譜混合)
State Space Model(SSM) Mamba 長序列低成本處理 挑戰 Transformer 的新架構
CNN / 傳統深度學習 ResNet、YOLO 圖像分類、物件偵測 視覺任務仍廣泛使用
  • LLM 的核心限制:精確數學推理、長期規劃、物理世界互動
  • o1/o3 的 Chain-of-Thought 與 AlphaCode 的強化學習混合,是補足這些缺口的主流方向
  • 多模態模型(Gemini、GPT-4o)是 LLM + 擴散模型的融合趨勢

實務應用

選擇 AI 模型架構的實用判斷框架:

  • 需要語言理解與生成 → LLM 首選
  • 需要生成圖像、音訊、影片 → 擴散模型
  • 需要在動態環境中連續決策 → 強化學習(如機器人、遊戲 AI)
  • 需要分析分子、蛋白質、圖結構資料 → GNN(AlphaFold 類)
  • 需要高可解釋性、確定性規則 → 符號 AI 或 LLM + 知識圖譜
  • 需要處理超長序列且成本敏感 → SSM(Mamba 類架構)

相關頁面:LLM 語言思考品質Harness Engineering

延伸觀點

Transformer 最核心的技術瓶頸是 O(n²) 二次方複雜度:每個 token 必須對其他所有 token 做 attention 計算,序列長度翻倍則計算量增加四倍。這在長文件、長對話場景中是硬性成本天花板(兩篇文章共同確認)。

Mamba 的突破在於將複雜度降至 O(n) 線性,推論速度快 5 倍、記憶體降低 7.8 倍,且能處理百萬 token 的超長序列——Transformer 物理上做不到的事。但代價是:Mamba 在邏輯推理、關聯性記憶等任務上明顯弱於 Transformer(兩篇文章共同確認)。

目前業界的解法是混合架構:Jamba(Transformer + Mamba + MoE)、NVIDIA Nemotron-H(92% Mamba2 + 8% attention),用 Mamba 負責長序列處理效率,保留少量 Transformer 區塊維持推理品質。這是「既要效率又要推理能力」的現實妥協。

新架構還面臨一個雞生蛋問題:需要千億參數規模才能真正驗證效能,但沒有大規模驗證就難以獲得訓練資源。這解釋了為什麼 Transformer 短期內不會被替代——不是因為它最好,而是因為它已被證明。

反向連結

以下頁面引用了本頁: