新四季網

統計分析數據時的數學方法(統計筆記Allof)

2023-09-21 06:07:40 2

All of Statistics分成3部分:

概率統計和推斷模型

現在開始第一部分-概率。

我們先來構建一下概率理論的基礎定義和公理:

1. 樣本空間定義:樣本空間是實驗中可能結果的集合。

2. 事件定義:在樣本空間的一個點被稱為樣本。事件是樣本空間裡的子集。

3. 柯爾莫哥洛夫於1933年給出了概率的公理化定義,如下:

設E是隨機試驗,S是它的樣本空間。對於E的每一事件A賦予一個實數,記為P(A),稱為事件A的概率。這裡P(A)是一個集合函數,P(A)要滿足下列條件:

公理1非負性:對於每一個事件A,有P(A)≥0;

公理2規範性:對於必然事件,有P(Ω)=1;

公理3可列可加性:設A1,A2……是兩兩互不相容的事件,即對於i≠j,Ai∩Aj=φ,(i,j=1,2……,則有P(A1∪A2∪……)=P(A1) P(A2) ……

這裡要停下來講一下P(A)的含義。我們這裡注意到P這裡是一個從A到是實數的映射,那P是什麼呢?現在主要有兩種解釋:一種是頻率,一種是可信度(degrees of beliefs)。在頻率論中,P是在長期重複中事件A為真的比率。在可信度論中,P描繪了觀察者對事件A為真的信心。這兩種解釋將導致統計分成了兩個學派:頻率學派和貝葉斯學派。也許這裡有點像孔乙己的4種茴字寫法,但我覺得不同的解釋會導致不同的統計世界觀。等我們講到統計推斷時再繼續討論這個有趣的問題。

由以上公理可以推導出的性質(定理):

概率具有以下7個不同的性質:

性質1:P(Φ) = 0;

性質2:(有限可加性)當n個事件A1,…,An兩兩互不相容時:

P(A1∪A2∪……)=P(A1) P(A2) ……;

性質3:對於任意一個事件A:P(A) = 1 - P(!A);

性質4:當事件A,B滿足A包含於B時:P(B-A) = P(B) - P(A), P(A) <= P(B);

性質5:對於任意一個事件A,P(A) 0,那麼: P(A|B)=P(AB)/P(B).若不變的B,P(*|B) 滿足概率的所有公理。但在不變的A下,P(A|*)不滿足概率的公理。一般情況下,P(A|B) = P(B|A)「A和B是獨立的」等價於「P(A|B) = P(B)」

現在我們開始講到最雞凍人心的貝葉斯定理:

我們可以看到他其實是條件概率公式的變形。但出乎意料的是這個公式卻有非凡的意義。我們來看一個貝葉斯定理的例子來理解他的強大 --- 吸毒者檢測:

假設一個常規的檢測結果的敏感度與可靠度均為99%,也就是說,當被檢者吸毒時,每次檢測呈陽性( )的概率為99%。而被檢者不吸毒時,每次檢測呈陰性(-)的概率為99%。從檢測結果的概率來看,檢測結果是比較準確的,但是貝葉斯定理卻可以揭示一個潛在的問題。假設某公司將對其全體僱員進行一次鴉片吸食情況的檢測,已知0.5%的僱員吸毒。我們想知道,每位醫學檢測呈陽性的僱員吸毒的概率有多高.

解法:令「D」為該公司僱員吸毒事件,「N」為僱員不吸毒事件,「 」為僱員檢測呈陽性事件。那麼根據貝葉斯定律:

P(D)代表僱員吸毒的概率,不考慮其他情況,該值為0.005。因為公司的預先統計表明該公司的僱員中有0.5%的人吸食毒品,所以這個值就是D的先驗概率。P(N)代表僱員不吸毒的概率,顯然,該值為0.995,也就是1-P(D)。P( |D)代表吸毒者陽性檢出率,這是一個條件概率同時也是先驗概率,由於陽性檢測準確性是99%,因此該值為0.99。P( |N)代表不吸毒者陽性檢出率,也就是出錯檢測的概率,該值為0.01,因為對於不吸毒者,其檢測為陰性的概率為99%,因此,其被誤檢測成陽性的概率為1-99%。P( )代表不考慮其他因素的影響的陽性檢出率。該值為0.0149或者1.49%。我們可以通過全概率公式計算得到:此概率 = 吸毒者陽性檢出率(0.5% × 99% = 0.00495) 不吸毒者陽性檢出率(99.5% × 1% = 0.00995)。P( )=0.0149是檢測呈陽性的先驗概率。

所以我們可以得到:

令人吃驚的結果。這就是說,儘管我們的檢測結果可靠性很高,但是只能得出如下結論:如果某人檢測呈陽性,那麼此人是吸毒的概率只有大約33%,也就是說此人不吸毒的可能性比較大。我們測試的條件(本例中指D,僱員吸毒)越難發生,發生誤判的可能性越大。其實在這裡我們可以這樣考慮這個現象。雖然每一次誤檢的概率很低,但是如果有很多次檢測(比如一千次),那麼誤檢就成了一個幾乎必然會出現的事情。一旦誤檢出現,再加上正確的陽性檢測本來就很少,那麼 P(D| )就必然會受到嚴重影響。

但如果讓此人再次復檢(相當於P(D)=33.2215%,為吸毒者概率,替換了原先的0.5%),再使用貝葉斯定理計算,將會得到此人吸毒的概率為98.01%。但這還不是貝葉斯定理最強的地方,如果讓此人再次復檢,再重複使用貝葉斯定理計算,會得到此人吸毒的概率為99.98%已經超過了檢測的可靠度。

人們根據不確定性信息作出推理和決策需要對各種結論的概率作出估計,這類推理稱為概率推理。下面我們會看到機器學習的數學工具也會頻繁用到貝葉斯定理。至此我們已經打好了概率理論的地基,下面就看我們能蓋出什麼樣的房子。

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了