核心概念
A/B 測試(又稱分割測試、對照實驗)是一種量化研究方法:將真實用戶隨機分配到兩個版本(A = 對照組,B = 實驗組),在相同時間窗口下測量哪個版本在預設指標上表現更好。
和用戶訪談設計與執行方法這類定性方法不同,A/B 測試解決的是「哪個版本效果更好?」而非「為什麼?」。它的力量在於排除主觀判斷,讓數據做決策。
適合 A/B 測試的情境:
- 有足夠流量(通常每版本每天 > 500 次曝光)
- 變更的影響可以在短期被指標捕捉(如轉化率、點擊率、留存率)
- 假設明確:已知「改什麼」,要驗證「改了會不會更好」
- 產品已有穩定的數據體系(參見北極星指標與產品數據體系設計)
不適合的情境:低流量頁面、全面重設計、需要解釋用戶行為動機、創新型功能(用戶沒看過的新事物難以和舊版比較)。
四步實驗設計框架
1. 建立假設
一個合格的假設包含四個元素:問題陳述(觀察到什麼現象)、具體改變(改哪一個元素)、預期影響(行為會如何改變)、衡量指標(用什麼驗證)。
範例:「結帳頁面放棄率偏高,推測 CTA 按鈕不夠顯眼。若將按鈕改為高對比度橘色,預期結帳完成率提升 5%,且不影響退款率。」
2. 選擇指標
- 主要指標:測試成敗的唯一判斷依據,只能有一個。多指標會導致假陽性機率大幅上升(多重比較問題)
- 防護欄指標(Guardrail Metrics):確認實驗不會對其他重要業務指標造成負面影響
- 避免虛榮指標(頁面瀏覽量);優先選擇與北極星指標連動的業務核心指標
3. 計算所需樣本量
在開始測試前必須預先計算,三個輸入參數:
- 基準值(Baseline Rate):指標目前的實際表現
- 最小可檢測效應(MDE):有商業意義的最小改善幅度,結合工程成本評估
- 顯著性水準(α = 0.05)與統計功效(Power,通常 80%)
未達所需樣本量就宣告結果,是 A/B 測試中最常見也最危險的錯誤。
4. 設定測試時間
即使流量足夠快速達到樣本量,測試至少應運行 1–2 週。用戶行為有週期性波動(週末 vs. 工作日),過短的測試窗口會讓特定時段用戶過度代表整體。
統計顯著性判讀
p-value 的正確理解
p-value 是「若虛無假設成立(兩版本無真實差異),觀察到這麼大的差異的機率」。一般設定 α = 0.05,即允許最多 5% 的假陽性機率(Type I Error)。
p < 0.05 的含義:在 A、B 沒有真實差異的世界裡,觀察到這樣數據的機率不到 5%——有 95% 的信心認為差異是真實的。
p-value 不代表:效應的大小、商業上的重要性、B 一定比 A 好多少。
統計顯著性 vs. 實務顯著性
這是最容易被忽視的關鍵區別:
| 統計顯著 | 不統計顯著 | |
|---|---|---|
| 有實務意義 | 值得上線 | 樣本不足,繼續收集 |
| 無實務意義 | 不值得上線(差異過小) | 可放棄 |
例:轉化率提升 0.01%,p = 0.02。雖然統計顯著,但若改版成本高而收益極小,不應上線。MDE 的設定應在實驗前完成,而非根據觀察到的結果回推。
Peeking 問題(提前偷看)
在樣本量達到前頻繁查看結果,並在看到「顯著」時立刻停止,稱為 Peeking。這會讓實際 Type I Error 遠超 5%——研究顯示頻繁 Peeking 的假陽性率可能高達 26%。
解決方案:設定好樣本量,在達到前不做正式統計判斷。可以觀察趨勢,但不宣告結果。
關鍵要點
- 假設先行:沒有假設的 A/B 測試不是實驗,是抽獎。假設應在測試開始前明確書面化
- 單一主要指標:多指標讓「成功」定義模糊,並大幅增加假陽性機率
- 樣本量必須預先計算,且必須達到才能判讀結果,不得提前宣告
- 統計顯著 ≠ 實務意義:p < 0.05 是入場券,不是上線的充分理由
- 禁止 Peeking:測試中途反覆查看並在顯著時停止,會讓假陽性率失控
- 至少測 1–2 週:覆蓋行為的週期性波動
- 從失敗測試學習:超過 70% 的 A/B 測試結果為負面或無效,這本身是修正假設的信號
實務應用
與 MVP 實驗框架的關係
A/B 測試屬於MVP 假設驗證與實驗設計工具箱中的一項,但不是唯一選項。產品早期(流量低、假設未成熟)時,原型測試和用戶訪談往往更有效;成熟產品階段,A/B 測試才能發揮最大價值。
SRM(樣本比例不匹配)
若實際流量分配比例與設計不符(如設計 50:50 但實際為 52:48),意味著隨機化存在問題,結果不可信。每次實驗開始後應先檢查 SRM,若偏差超過閾值(約 1%),需暫停並排查隨機分配邏輯。
測試中不應更動的事項
- 流量分配比例(改變會引發辛普森悖論)
- 測試範圍與目標指標定義
- 任何會影響對照組或實驗組體驗的系統變更
延伸觀點
來自三篇優先來源(NNGroup、Prepvector Substack、Medium PM 101)的交叉驗證洞察:
指標分層設計是實驗嚴謹性的核心。兩篇以上來源均強調:除主要指標外,必須設定防護欄指標。許多團隊只追蹤轉化率,卻忽視長期留存率或退款率同步下滑的問題。上線決策不能只看主要指標是否為正。
「失敗」的測試是策略資產。Substack 與 Medium 兩篇文章都明確指出:大多數測試不會產生統計顯著的正面結果,但設計良好的測試永遠有收穫——要麼驗證假設,要麼排除假設,每個結果都在縮小「哪裡才是問題所在」的範圍。關鍵在於假設必須基於單一因果推斷,才能從結果中學到具體的東西。
SRM 檢查被嚴重低估(Prepvector,優先來源):隨機化失敗是 A/B 測試結果失真的常見但隱蔽原因。建議每次實驗在正式收集數據前先跑 AA 測試(對照組 vs. 對照組),確認分流邏輯無誤,再正式開始實驗。
反向連結
以下頁面引用了本頁: