正確理解p值（終於有人把p值講明白了）

2023-04-24 03:01:27 4

導讀：p值（P value）就是當原假設為真時，比所得到的樣本觀察結果更極端的結果出現的概率，是用來判定假設檢驗結果的一個參數。p值是根據實際統計量計算出的顯著性水平。本文帶你了解p值和對p值的常見誤解。

作者：羅恩·科哈維（Ron Kohavi）、黛安·唐（Diane Tang）、許亞（Ya Xu）

來源：華章科技

01 假設檢驗：確立統計顯著性

在對照實驗中，實驗組有一組樣本，每個對照組各有一組樣本。如果零假設是來自實驗組的樣本和來自對照組的均值相同，我們會定量測試兩組樣本的差異的可能性大小。

如果可能性非常小，則我們拒絕零假設，並宣稱差異是統計顯著的。確切地說，有了實驗組樣本和對照組樣本的人均營收的估計值，我們可以計算估計值的差異的p值，即在零假設為真的情況下觀測到這種差值或更極端的差值的概率。

如果p值足夠小，則我們拒絕零假設，並得出實驗有效應（或者說結果統計上顯著）的結論。但是多小是足夠小呢？

科學的標準是使用小於0.05的p值，也就是說，如果事實上是沒有效應的，那麼100次裡我們有95次能正確地推斷出沒有效應。另一種檢驗樣本差異是否統計顯著的方法是看置信區間有沒有包含零值。95%置信區間是一個可以在95%的時間裡覆蓋真實差異值的區間。

對於較大的樣本量，這個區間通常以觀測到的實驗組和對照組差值為中心點，向兩邊各擴展1.96倍於標準差的寬度。圖2.3展示了p值和置信區間這兩種方法的等價性。

▲圖2.3

上圖：用p值評定觀測到的差值是否統計顯著。如果p值小於0.05，則認為是統計顯著的。下圖：用95%置信區間Δ-1.96σ，Δ 1.96σ評定統計顯著性的等價方法。如果零值落在置信區間之外，則認為是統計顯著的

統計功效（statistical power）是如果變體之間有真實差異，檢測出有意義的差值的概率（統計上指當真實有差異時拒絕零假設的概率）。

從實踐的角度來說，你想要實驗有足夠大的功效，從而能夠以高概率得出實驗是否導致了比你所在意的變化更大的變化的結論。通常情況下，樣本量越大，統計功效就越大。實驗設計的慣常做法是選擇80%～90%的統計功效。

雖然「統計顯著性」衡量了當零假設為真時，基於偶然性得到你的觀察值或更極端觀察值的可能性有多大，但不是所有統計顯著的結果都有實際意義。

以人均營收為例，多大的差異從業務角度來說是緊要的？換句話說，什麼樣的變化是實際顯著的（practically significant）？構建這一實質性的邊界很重要，它可以幫助理解一個差異是否值得花費相應改動所需的成本。

如果你的網站像谷歌和必應那樣有數十億美金的營收，那麼0.2%的變化是實際顯著的。作為對比，一個初創公司可能認為2%的增長都太小了，因為他們追求的是10%或更大的增長。對於我們的例子，從業務角度來看，人均營收提高1%及以上是重要的或者說是實際顯著的。

02 曲解統計結果

我們現在來介紹一些解讀對照實驗的數據時常見的錯誤。

1. 統計功效不足

零假設顯著性檢驗（Null Hypothesis Significance Testing, NHST）框架通常假定對照組和實驗組之間的指標沒有差異（零假設），如果數據能提供有力的反對證據，則拒絕該假設。

一個常見的錯誤是，僅僅由於指標不是統計顯著的，就假設沒有實驗效應。而真實的情況很可能是因為實驗的統計功效不足以檢測到我們看到的效應量，也就是實驗沒有足夠的用戶。

例如，對GoodUI.org的115個A/B測試進行的評估表明，大多數實驗的統計功效不足。這就是為什麼說重要的是要定義多大的變化是實際顯著的，並確保有足夠的功效來檢測該大小或更小的變化。

如果實驗僅影響總體的一小部分，那麼僅分析受影響的子集就很重要。即使對一小部分用戶而言是巨大的影響，也可能在分析總體時被稀釋並且無法被檢測到。

2. 曲解p值

p值經常被曲解。最常見的錯誤解釋是基於單個實驗中的數據，認為p值代表對照組和實驗組的指標平均值相同的概率。

p值是當假定零假設為真時，得到的結果與觀測到的結果相同或更極端的概率。零假設的條件至關重要。

以下是「A Dirty Dozen: Twelve P-Value Misconceptions」中的一些不正確的陳述和解釋：

1）如果p值=0.05，則零假設只有5%的機會為真。

p值是基於零假設為真的前提來計算的。

2）不顯著的差異（例如，p值>0.05）意味著實驗組和對照組之間沒有差異。

此時觀察到的結果與零假設的實驗效應為零相符，但同時也和其他數值的實驗效應相符。當展示一個典型的對照實驗的置信區間時，我們發現該區間包含零。但這並不意味著置信區間中的零比其他值更有可能出現。實驗很可能沒有足夠的統計功效。

3）p值=0.05表示在零假設下，我們觀察到的數據僅有5%的時間出現。

通過上面的p值的定義，我們知道這是不正確的。該p值（=0.05）包括了出現跟觀察到的值一樣以及更極端的情況。

4）p值=0.05表示如果拒絕零假設，則假陽性的可能性僅為5%。

這和第一個例子很像，但是更不容易看到其錯誤性。下面這個例子可能會有所幫助：假設你正在嘗試通過在鉛上施加熱和壓力並澆注藥劑來將鉛轉化為金。

你測量所得混合物的「黃金」量，這是一個有很多幹擾的測量。由於我們知道化學處理無法將鉛的原子序數從82變為79，任何對零假設（也就是不變）的否定都是錯誤的，因此任何情況下拒絕零假設都是假陽性，而與p值無關。

要計算假陽率，即在p值<0.05且零假設為真的情況（請注意，這兩個條件是同時發生的，而不是以零假設是真的為前提）下，我們可以使用貝葉斯定理並需要知道先驗概率。

即使是前面常見的假定零假設為真的p值的定義，也沒有明確地闡述其他的假設，比如如何收集數據（例如隨機採樣）以及統計檢驗做出什麼假設。如果進行了中間層次的分析而影響了選擇哪種分析來呈現，或者由於p值較小而選擇呈現p值，那麼顯然會違反這些假設。

3. 窺探p值

運行線上對照實驗時，你可以連續監控p值。事實上，商業產品Optimizely的早期版本曾鼓勵這樣做。這樣的多重假設檢驗會導致宣稱的統計顯著的結果有重大的偏差（5到10倍）。這裡有兩種選擇：

1）按照Johari et al. （2017）的建議，使用始終有效的p值的序貫檢驗，或貝葉斯檢驗框架。

2）使用預設的實驗時長（例如一周）來確定統計顯著性。

Optimizely根據第一種方法實施了一個解決方案，而谷歌、領英和微軟的實驗平臺則選擇使用第二種方法。

4. 多重假設檢驗

以下故事來自有趣的書What is a p-value anyway?：

統計專家：噢，你已經計算好了p值？外科醫生：是的，我用了多類別邏輯回歸。統計專家：真的？你怎麼想到的？外科醫生：我在統計軟體的下拉菜單中嘗試了每種分析，而該分析給出的p值最小。

多重比較問題是上述窺探問題的一個概括。當存在多個假設檢驗且選擇了最低的p值時，我們對p值和效應大小的估算可能會出現偏差。這體現在以下幾個方面：

查看多個指標。查看跨時間的p值（如上所述的窺探）。查看受眾細分群（例如，國家/地區，瀏覽器類型，重度/輕度使用，新/老用戶）。查看實驗的多次迭代。例如，如果實驗確實沒有任何影響（A/A實驗），則運行20次可能會出現一個小於0.05的p值。

錯誤發現率是處理多重檢驗的關鍵概念。

03 置信區間

寬泛地說，置信區間可以量化實驗效應的不確定程度。置信水平表示置信區間應包含真正的實驗效應的頻率。p值和置信區間之間存在對偶性。對於對照實驗中常用的零差異零假設，實驗效應的95%置信區間不包含零意味著p值<0.05。

一個常見的錯誤是單獨查看對照組和實驗組的置信區間，並假設如果它們重疊，則實驗效應在統計學上沒有差異。這是不正確的，如Statistical Rules of Thumb中所示，它們的置信區間可以重疊多達29%，但差異是統計顯著的。然而，反過來卻是對的：如果95%的置信區間不重疊，則實驗效應是統計顯著的，此時的p值<0.05。

關於置信區間的另一個常見曲解是認為所呈現的95%置信區間有95%的機會包含真正的實驗效應。對於特定的置信區間，真正的實驗效應要麼100%在裡面，要麼0%在裡面。95%是指由許多研究計算出的95%置信區間有多高頻率包含一次真正的實驗效應。

關於作者：羅恩·科哈維（Ron Kohavi）是愛彼迎的副總裁和技術院士，曾任微軟的技術研究員和公司副總裁。在加入微軟之前，他是亞馬遜的數據挖掘和個性化推薦總監。他擁有史丹福大學計算機科學博士學位，論文被引用超過40 000次，其中有3篇位列計算機科學領域引用最多的1 000篇論文榜。

黛安·唐（Diane Tang）是谷歌院士，大規模數據分析和基礎設施、線上對照實驗及廣告系統方面的專家。她擁有哈佛大學的文學學士學位和史丹福大學的碩士及博士學位，在行動網路、信息可視化、實驗方法、數據基礎設施、數據挖掘和大數據方面擁有專利和出版物。

許亞（Ya Xu）是領英數據科學與實驗平臺負責人，曾撰寫了多篇關於實驗的論文，並經常在頂級會議和大學演講。她曾在微軟工作，擁有史丹福大學的統計學博士學位。

本文摘編自《關鍵迭代：可信賴的線上對照實驗》，經出版方授權發布。

延伸閱讀《關鍵迭代：可信賴的線上對照實驗》

推薦語：愛彼迎、谷歌、領英A/B測試領軍人物撰寫，亞馬遜、谷歌、微軟和領英等公司網際網路產品成功的秘訣！谷歌院士JeffDean、臉書首任CTO、沈向洋等37位專家推薦。本書基於近些年實驗領域的研究成果和實踐經驗，對實驗的方法和應用做了很好的全景式描述，是一本兼顧系統性的方法論和基於實戰的經驗法則的書籍。