AB測試設計與統計顯著性判讀

核心概念

A/B 測試（又稱分割測試、對照實驗）是一種量化研究方法：將真實用戶隨機分配到兩個版本（A = 對照組，B = 實驗組），在相同時間窗口下測量哪個版本在預設指標上表現更好。

和用戶訪談設計與執行方法這類定性方法不同，A/B 測試解決的是「哪個版本效果更好？」而非「為什麼？」。它的力量在於排除主觀判斷，讓數據做決策。

適合 A/B 測試的情境：

不適合的情境：低流量頁面、全面重設計、需要解釋用戶行為動機、創新型功能（用戶沒看過的新事物難以和舊版比較）。

1. 建立假設

一個合格的假設包含四個元素：問題陳述（觀察到什麼現象）、具體改變（改哪一個元素）、預期影響（行為會如何改變）、衡量指標（用什麼驗證）。

範例：「結帳頁面放棄率偏高，推測 CTA 按鈕不夠顯眼。若將按鈕改為高對比度橘色，預期結帳完成率提升 5%，且不影響退款率。」

2. 選擇指標

3. 計算所需樣本量

在開始測試前必須預先計算，三個輸入參數：

未達所需樣本量就宣告結果，是 A/B 測試中最常見也最危險的錯誤。

4. 設定測試時間

即使流量足夠快速達到樣本量，測試至少應運行 1–2 週。用戶行為有週期性波動（週末 vs. 工作日），過短的測試窗口會讓特定時段用戶過度代表整體。

p-value 是「若虛無假設成立（兩版本無真實差異），觀察到這麼大的差異的機率」。一般設定 α = 0.05，即允許最多 5% 的假陽性機率（Type I Error）。

p < 0.05 的含義：在 A、B 沒有真實差異的世界裡，觀察到這樣數據的機率不到 5%——有 95% 的信心認為差異是真實的。

p-value 不代表：效應的大小、商業上的重要性、B 一定比 A 好多少。

這是最容易被忽視的關鍵區別：

	統計顯著	不統計顯著
有實務意義	值得上線	樣本不足，繼續收集
無實務意義	不值得上線（差異過小）	可放棄

例：轉化率提升 0.01%，p = 0.02。雖然統計顯著，但若改版成本高而收益極小，不應上線。MDE 的設定應在實驗前完成，而非根據觀察到的結果回推。

在樣本量達到前頻繁查看結果，並在看到「顯著」時立刻停止，稱為 Peeking。這會讓實際 Type I Error 遠超 5%——研究顯示頻繁 Peeking 的假陽性率可能高達 26%。

解決方案：設定好樣本量，在達到前不做正式統計判斷。可以觀察趨勢，但不宣告結果。

A/B 測試屬於MVP 假設驗證與實驗設計工具箱中的一項，但不是唯一選項。產品早期（流量低、假設未成熟）時，原型測試和用戶訪談往往更有效；成熟產品階段，A/B 測試才能發揮最大價值。

若實際流量分配比例與設計不符（如設計 50:50 但實際為 52:48），意味著隨機化存在問題，結果不可信。每次實驗開始後應先檢查 SRM，若偏差超過閾值（約 1%），需暫停並排查隨機分配邏輯。

來自三篇優先來源（NNGroup、Prepvector Substack、Medium PM 101）的交叉驗證洞察：

指標分層設計是實驗嚴謹性的核心。兩篇以上來源均強調：除主要指標外，必須設定防護欄指標。許多團隊只追蹤轉化率，卻忽視長期留存率或退款率同步下滑的問題。上線決策不能只看主要指標是否為正。

「失敗」的測試是策略資產。Substack 與 Medium 兩篇文章都明確指出：大多數測試不會產生統計顯著的正面結果，但設計良好的測試永遠有收穫——要麼驗證假設，要麼排除假設，每個結果都在縮小「哪裡才是問題所在」的範圍。關鍵在於假設必須基於單一因果推斷，才能從結果中學到具體的東西。

SRM 檢查被嚴重低估（Prepvector，優先來源）：隨機化失敗是 A/B 測試結果失真的常見但隱蔽原因。建議每次實驗在正式收集數據前先跑 AA 測試（對照組 vs. 對照組），確認分流邏輯無誤，再正式開始實驗。

以下頁面引用了本頁：