LLM主流地位與替代路徑 — 柒藍的學習筆記

核心概念

LLM（大型語言模型）成為當代 AI 主流，根本原因在於 Transformer 架構的突破，以及「語言即通用介面」這個假設被大規模驗證。

規模效應（Scaling Law） 是最關鍵的驅動力。Kaplan et al.（2020）發現，模型參數量、訓練資料量、算力三者同步增加時，模型效能呈現可預測的冪次律提升。這在其他架構中從未被觀察到如此一致的規律，意味著只要繼續投入資源，效能就會持續改善，形成了資本與技術的正向飛輪。

泛化能力是第二個核心優勢。同一個模型可以處理翻譯、摘要、程式碼生成、推理、問答，無需為每個任務重新訓練。傳統的機器學習模型每個任務都需要獨立設計、獨立訓練，成本極高。

預訓練 + 微調（Pre-training + Fine-tuning）範式大幅降低了應用門檻。先在海量通用資料上預訓練取得世界知識，再以少量任務資料微調，比從零訓練省下 99% 以上的成本。RLHF（人類回饋強化學習）則進一步讓模型行為符合人類預期，這是 ChatGPT 能被大眾接受的技術基礎。

語言作為通用介面是 LLM 主流地位的哲學根基。幾乎所有人類知識、指令、邏輯都可以用文字表達，語言模型因此成為通用推理引擎。相比之下，影像、強化學習等模態的表達能力更窄，難以成為統一入口。

關鍵要點

主要的替代或互補 AI 模型路徑：

方式	代表技術	強項	現況
擴散模型（Diffusion）	Stable Diffusion、DALL-E	圖像、音訊、影片生成	影像生成主流，與 LLM 互補
強化學習（RL）	AlphaGo、AlphaStar	遊戲、機器人、最佳化	特定領域最強解法
圖神經網路（GNN）	AlphaFold	分子結構、社群網路分析	科學計算領域主流
符號 AI / 規則系統	知識圖譜、Expert System	可解釋性、確定性邏輯	復興中（LLM + 知識圖譜混合）
State Space Model（SSM）	Mamba	長序列低成本處理	挑戰 Transformer 的新架構
CNN / 傳統深度學習	ResNet、YOLO	圖像分類、物件偵測	視覺任務仍廣泛使用

LLM 的核心限制：精確數學推理、長期規劃、物理世界互動
o1/o3 的 Chain-of-Thought 與 AlphaCode 的強化學習混合，是補足這些缺口的主流方向
多模態模型（Gemini、GPT-4o）是 LLM + 擴散模型的融合趨勢

實務應用

選擇 AI 模型架構的實用判斷框架：

需要語言理解與生成 → LLM 首選
需要生成圖像、音訊、影片 → 擴散模型
需要在動態環境中連續決策 → 強化學習（如機器人、遊戲 AI）
需要分析分子、蛋白質、圖結構資料 → GNN（AlphaFold 類）
需要高可解釋性、確定性規則 → 符號 AI 或 LLM + 知識圖譜
需要處理超長序列且成本敏感 → SSM（Mamba 類架構）

相關頁面：LLM 語言思考品質、Harness Engineering

延伸觀點

Transformer 最核心的技術瓶頸是 O(n²) 二次方複雜度：每個 token 必須對其他所有 token 做 attention 計算，序列長度翻倍則計算量增加四倍。這在長文件、長對話場景中是硬性成本天花板（兩篇文章共同確認）。

Mamba 的突破在於將複雜度降至 O(n) 線性，推論速度快 5 倍、記憶體降低 7.8 倍，且能處理百萬 token 的超長序列——Transformer 物理上做不到的事。但代價是：Mamba 在邏輯推理、關聯性記憶等任務上明顯弱於 Transformer（兩篇文章共同確認）。

目前業界的解法是混合架構：Jamba（Transformer + Mamba + MoE）、NVIDIA Nemotron-H（92% Mamba2 + 8% attention），用 Mamba 負責長序列處理效率，保留少量 Transformer 區塊維持推理品質。這是「既要效率又要推理能力」的現實妥協。

新架構還面臨一個雞生蛋問題：需要千億參數規模才能真正驗證效能，但沒有大規模驗證就難以獲得訓練資源。這解釋了為什麼 Transformer 短期內不會被替代——不是因為它最好，而是因為它已被證明。

反向連結

以下頁面引用了本頁：

AI Agent 設計模式
AI 就業效應與 Jevons Paradox
Harness Engineering
LLM 語言思考品質
RAG 檢索增強生成架構
Prompt Engineering 進階技術：CoT、Few-shot 與提示鏈（技術與AI）
GPT 小妖精事件：強化學習人格訓練的行為外洩（文章精選）
Granite 4.1 LLM 建構揭密——IBM 五階段訓練策略（文章精選）
Hugging Face 推論供應商生態系：DeepInfra 整合實錄（文章精選）
LLM推理驅動的太空船姿態控制：GRPO強化學習框架（研究速遞）
LLaMA 3 自動履歷篩選：語意配對超越 ATS 關鍵字匹配（研究速遞）
OpenAI 語音 AI 低延遲架構：WebRTC 大規模部署實錄（文章精選）
EMO：混合專家模型的湧現式模組化（文章精選）
單模態 LLM 作為多模態 VLM 的偏好教師（研究速遞）
Fine-tuning 與 LoRA：LLM 參數高效微調技術（技術與AI）
LLM對齊微調比較：SFT、RLHF與DPO的HHH三維表現（研究速遞）
專業化勝過規模：AI 採購決策的分佈對齊變數（文章精選）
Reachy Mini 本地化對話：語音 AI 管線的離線部署實錄（文章精選）
GPT-Rosalind：OpenAI 生命科學專用模型（文章精選）
LLM推理失敗：首個全面分類調查框架（研究速遞）
OLMo Hybrid：混合模型預測哪些標記更好（文章精選）
AI 專業化為何不可避免（文章精選）