統計分析數據時的數學方法(統計筆記Allof)
2023-09-21 06:07:40 2
All of Statistics分成3部分:
概率統計和推斷模型現在開始第一部分-概率。
我們先來構建一下概率理論的基礎定義和公理:
1. 樣本空間定義:樣本空間是實驗中可能結果的集合。
2. 事件定義:在樣本空間的一個點被稱為樣本。事件是樣本空間裡的子集。
3. 柯爾莫哥洛夫於1933年給出了概率的公理化定義,如下:
設E是隨機試驗,S是它的樣本空間。對於E的每一事件A賦予一個實數,記為P(A),稱為事件A的概率。這裡P(A)是一個集合函數,P(A)要滿足下列條件:
公理1非負性:對於每一個事件A,有P(A)≥0;
公理2規範性:對於必然事件,有P(Ω)=1;
公理3可列可加性:設A1,A2……是兩兩互不相容的事件,即對於i≠j,Ai∩Aj=φ,(i,j=1,2……,則有P(A1∪A2∪……)=P(A1) P(A2) ……
這裡要停下來講一下P(A)的含義。我們這裡注意到P這裡是一個從A到是實數的映射,那P是什麼呢?現在主要有兩種解釋:一種是頻率,一種是可信度(degrees of beliefs)。在頻率論中,P是在長期重複中事件A為真的比率。在可信度論中,P描繪了觀察者對事件A為真的信心。這兩種解釋將導致統計分成了兩個學派:頻率學派和貝葉斯學派。也許這裡有點像孔乙己的4種茴字寫法,但我覺得不同的解釋會導致不同的統計世界觀。等我們講到統計推斷時再繼續討論這個有趣的問題。
由以上公理可以推導出的性質(定理):
概率具有以下7個不同的性質:
性質1:P(Φ) = 0;
性質2:(有限可加性)當n個事件A1,…,An兩兩互不相容時:
P(A1∪A2∪……)=P(A1) P(A2) ……;
性質3:對於任意一個事件A:P(A) = 1 - P(!A);
性質4:當事件A,B滿足A包含於B時:P(B-A) = P(B) - P(A), P(A) <= P(B);
性質5:對於任意一個事件A,P(A) 0,那麼: P(A|B)=P(AB)/P(B).若不變的B,P(*|B) 滿足概率的所有公理。但在不變的A下,P(A|*)不滿足概率的公理。一般情況下,P(A|B) = P(B|A)「A和B是獨立的」等價於「P(A|B) = P(B)」
現在我們開始講到最雞凍人心的貝葉斯定理:
我們可以看到他其實是條件概率公式的變形。但出乎意料的是這個公式卻有非凡的意義。我們來看一個貝葉斯定理的例子來理解他的強大 --- 吸毒者檢測:
假設一個常規的檢測結果的敏感度與可靠度均為99%,也就是說,當被檢者吸毒時,每次檢測呈陽性( )的概率為99%。而被檢者不吸毒時,每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司將對其全體僱員進行一次鴉片吸食情況的檢測,已知0.5%的僱員吸毒。我們想知道,每位醫學檢測呈陽性的僱員吸毒的概率有多高.
解法:令「D」為該公司僱員吸毒事件,「N」為僱員不吸毒事件,「 」為僱員檢測呈陽性事件。那麼根據貝葉斯定律:
P(D)代表僱員吸毒的概率,不考慮其他情況,該值為0.005。因為公司的預先統計表明該公司的僱員中有0.5%的人吸食毒品,所以這個值就是D的先驗概率。P(N)代表僱員不吸毒的概率,顯然,該值為0.995,也就是1-P(D)。P( |D)代表吸毒者陽性檢出率,這是一個條件概率同時也是先驗概率,由於陽性檢測準確性是99%,因此該值為0.99。P( |N)代表不吸毒者陽性檢出率,也就是出錯檢測的概率,該值為0.01,因為對於不吸毒者,其檢測為陰性的概率為99%,因此,其被誤檢測成陽性的概率為1-99%。P( )代表不考慮其他因素的影響的陽性檢出率。該值為0.0149或者1.49%。我們可以通過全概率公式計算得到:此概率 = 吸毒者陽性檢出率(0.5% × 99% = 0.00495) 不吸毒者陽性檢出率(99.5% × 1% = 0.00995)。P( )=0.0149是檢測呈陽性的先驗概率。所以我們可以得到:
令人吃驚的結果。這就是說,儘管我們的檢測結果可靠性很高,但是只能得出如下結論:如果某人檢測呈陽性,那麼此人是吸毒的概率只有大約33%,也就是說此人不吸毒的可能性比較大。我們測試的條件(本例中指D,僱員吸毒)越難發生,發生誤判的可能性越大。其實在這裡我們可以這樣考慮這個現象。雖然每一次誤檢的概率很低,但是如果有很多次檢測(比如一千次),那麼誤檢就成了一個幾乎必然會出現的事情。一旦誤檢出現,再加上正確的陽性檢測本來就很少,那麼 P(D| )就必然會受到嚴重影響。
但如果讓此人再次復檢(相當於P(D)=33.2215%,為吸毒者概率,替換了原先的0.5%),再使用貝葉斯定理計算,將會得到此人吸毒的概率為98.01%。但這還不是貝葉斯定理最強的地方,如果讓此人再次復檢,再重複使用貝葉斯定理計算,會得到此人吸毒的概率為99.98%已經超過了檢測的可靠度。
人們根據不確定性信息作出推理和決策需要對各種結論的概率作出估計,這類推理稱為概率推理。下面我們會看到機器學習的數學工具也會頻繁用到貝葉斯定理。至此我們已經打好了概率理論的地基,下面就看我們能蓋出什麼樣的房子。
,