新四季網

3d006期數據分析(概率破玄機統計解迷離)

2023-09-21 06:12:16

作者 | 嚴加安

感謝嚴加安院士授權本號刊載。

原文見嚴加安院士的科學網博客

http://blog.sciencenet.cn/u/yanjiaan

概率論起源於中世紀的歐洲,那時盛行擲骰子賭博, 提出了許多有趣的概率問題。當時法國的帕斯卡、費馬和旅居巴黎的荷蘭數學家惠更斯都對此類問題感興趣,他們用組合數學研究了許多與擲骰子有關的概率計算問題。20世紀30年代柯爾莫哥洛夫提出概率公理化,隨後概率論迅速發展成為數學領域裡一個獨立分支。

安德列·柯爾莫哥洛夫(1903年4月25日-1987年10月20日),20世紀蘇聯最傑出的數學家,也是20世紀世界上為數極少的幾個最有影響的數學家之一。

隨機現象背後是隱藏某些規律的,概率論的一項基本任務就是揭示這些規律。現在概率論已經發展成為數學領域裡一個相對充滿活力的學科,並且在工程、國防、生物、經濟和金融等領域得到了廣泛的應用。

統計學是一門具有方法論性質的應用性科學,它在概率論基礎上,發展出一系列的原理和方法,研究如何採集和整理反映事物總體信息的數字資料,並依據這些複雜的數據(稱為樣本)對總體的特徵和現象背後隱藏的規律進行分析和推斷。

法國數學家拉普拉斯有句名言:「生活中最重要的問題,絕大部分其實只是概率問題。」當代國際著名的統計學家C.R.勞說過:「如果世界中的事件完全不可預測的隨機發生,則我們的生活是無法忍受的。而與此相反,如果每一件事都是確定的、完全可以預測的,則我們的生活將是無趣的。」

我長期從事概率論和隨機分析研究,對概率論和數理統計學科的本質有些領悟,曾寫過下面這首「悟道詩」:隨機非隨意, 概率破玄機;無序隱有序, 統計解迷離。

本文試圖通過若干日常生活中的一些例子來向大家展示概率是如何破玄機和統計是如何解迷離的。

1

什麼是隨機和隨意?

在社會和自然界中,我們經常遇到一些事件,因為有很多不確定的偶然因素很難判斷它會發生或不發生,這樣的事件就是所謂的隨機事件或偶然事件。概率則是對隨機事件發生的可能性大小的一個度量。必然要發生的事件的概率規定為1,不可能發生的事件的概率規定為0,其他隨機事件發生的概率介乎0與1之間。例如,拋一枚勻質的硬幣,出現正面或反面的概率均為二分之一;擲一個勻質的骰子,每個面出現朝上的概率均為六分之一。在這兩個例子中,每個簡單事件(或「場景」)都是等可能發生的。一個複合事件(如擲骰子出現的點數是偶數)發生的概率就等於使得該複合事件發生的場景數目與可能場景總數之比。

什麼是隨意?隨意就是帶有主觀意識的一種隨機。比方說,我們知道擲一枚勻質硬幣出現正面或反面的概率都是1/2。如果讓某人臆想一個相繼擲50次硬幣的可能結果,並用1和0分別表示出現「正面」和「反面」,在一張紙上寫下來,由於他考慮到接連多次出現正面或反面的可能性較小,在他寫1和0時,可能有意識避免連寫三個或四個以上的1或0,這樣產生的0-1序列就是「隨意的」,它看似隨機,但與真實作一次擲50次硬幣記錄下的結果在統計特性上是有區別的。

2

靠直覺作判斷常常會出錯

下面是一個靠直覺作判斷容易出錯的例子。某人新來鄰居是一對海歸夫婦,只知道這對夫婦有兩個非雙胞胎孩子。某天,看到爸爸領著一男孩出門了,問這對夫婦的另一孩子也是男孩的概率是多大?許多人可能給出的答案是1/2,因為生男生女的概率都是1/2。但實際上正確答案應該是1/3,因為在已知該家至少有一男孩的前提下,他家兩個小孩可能的場景是三個(按孩子出生先後次序):「男男」「男女」「女男」。只有「男男」才符合「另一孩子也是男孩」這一場景。如果突然從這家傳出嬰兒的啼哭聲,「另一孩子也是男孩」的概率就變成1/2了,因為這時可以斷定出了門的那個男孩是老大,可能的場景就變成兩個了(按出生先後次序):男男,男女。

從這兩個簡單初等概率問題可以悟出一個道理:靠直覺作判斷常常會出錯。計算一個隨機事件發生的概率,重要的是要對此事件得以發生的所有可能場景有正確的判斷。

3

「生日悖論」

N個人中至少有兩人生日相同的概率是多少? 這是有名的「生日問題」。令人難以置信的是:隨機選取的23人中至少兩人生日相同的概率居然超過50%, 50人中至少兩人生日相同的概率居然達到97%!例如,假定一個中學有二十個班,每個班平均有50個學生,你可以調查一下,大概會有十幾個班都有至少兩個相同的生日的學生。這和人們的直覺是牴觸的。因此這一結果被稱為「生日悖論」。

其實有關概率的計算很簡單,首先計算50個人生日都不相同的概率。第一個人的生日有365個可能性,第二個人如果生日與第一個人不同,他的生日有364個可能性,依次類推,直到第50個人的生日有316個可能性,所以50人生日都不同的可能組合方式就是365×364×363×···×316,但由於每個人是生日是獨立的,總的可能組合為36550,這樣一來,50個人生日都不相同的概率就等於兩個組合數之比,這個概率非常小,只有3%,所以至少兩個人生日相同的概率等於1減去3%,得到97%,這樣概率就計算出來了。

注意:如果預先選定一個生日,隨機選取125人、250人、500人、1000人,出現某人生日正好是選定生日的概率分別大約只有 30%,50%,75%,94%,比想像的小得多。

4

「三枚銀幣」騙局

某人在街頭設一賭局。他向觀眾出示了放在帽子裡的三枚銀幣(記為甲、乙、丙),銀幣甲的兩面塗了黑色,銀幣丙的兩面塗了紅色,銀幣乙一面塗了黑色,另一面塗了紅色。遊戲規則是:他讓一個觀眾從帽子裡任意取出一枚銀幣放到桌面上(這裡不用「投擲銀幣」是為了避免暴露銀幣兩面的顏色),然後由設局人猜銀幣另一面的顏色,如果猜中了,該參與者付給他1元錢,如果猜錯了,他付給該參與者1元錢。試問:這一賭局是公平的嗎?從直覺上看,無論取出的銀幣所展示的一面是黑色或紅色,另一面是紅色或黑色的概率都是1/2,這一賭局似乎是公平的。但實際上不公平,設局者只要每次「猜」背面和正面是同一顏色,他的勝算概率是2/3,因為從這三張牌隨機選取一枚銀幣,其兩面塗相同顏色的概率就是2/3。如果有許多人參與賭局,大概有1/3的人會贏錢,2/3的人會輸錢。

5

在猜獎遊戲中改猜是否增大中獎概率?

這一問題出自美國的一個電視遊戲節目,問題的名字來自該節目的主持人蒙提·霍爾,20世紀90年代曾在美國引起廣泛和熱烈的討論。假定在臺上有三扇關閉的門,其中一扇門後面有一輛汽車,另外兩扇門後面各有一隻山羊。主持人是知道哪扇門後面有汽車的。當競猜者選定了一扇門但尚未開啟它的時候,節目主持人去開啟剩下兩扇門中的一扇,露出的是山羊。主持人會問參賽者要不要改猜另一扇未開啟的門。問題是:改猜另一扇未開啟的門是否比不改猜贏得汽車的概率要大?正確的答案是:改猜能增大贏得汽車的概率,從原來的1/3增大為2/3。這是因為競猜者選定的一扇門後面有汽車的概率是1/3,在未選定的兩扇門後面有汽車的概率是2/3,主持人開啟其中一扇門把這門後面有汽車給排除了,所以另一扇未開啟的門後面有汽車的概率是2/3。

也許有人對此答案提出質疑,認為在剩下未開啟的兩扇門後有汽車的概率都是1/2,因此不需要改猜。為消除這一質疑,不妨假定有10扇門的情形,其中一扇門後面有一輛汽車,另外9扇門後面各有一隻山羊。當競猜者猜了一扇門但尚未開啟時,主持人去開啟剩下9扇門中的8扇,露出的全是山羊。顯然:原先猜的那扇門後面有一輛汽車的概率只是1/10,這時改猜另一扇未開啟的門贏得汽車的概率是9/10。

6

如何設計對敏感性問題的社會調查?

設想要對研究生論文抄襲現象進行社會調查。如果直接就此問題進行問卷調查,就是說要你直說你是否抄襲,即使這樣的調查是無記名的,也會使被調查者感到尷尬。設計如下方案可使被調查者願意作出真實的回答:在一個箱子裡放進1個紅球和1個白球。被調查者在摸到球後記住顏色並立刻將球放回,然後根據球的顏色是紅和白分別回答如下問題:你的生日是否在7月1日以前?你作論文時是否有過抄襲行為?回答時只要在一張預備好的白紙上打√或打×,分別表示是或否。假定被調查者有150人,統計出有60個√。問題:有抄襲行為的比率大概是多少?已知:P(紅)=0.5,P(√|紅)=0.5,P(√)=0.4, 求條件概率 P(√|白),用貝葉斯公式算出的答案是30%。

這一例子是對「無序隱有序,統計解迷離」的一個很好解讀。

7

如何理解社會和大自然中出現的奇蹟?

對單個彩民和單次抽獎來說,中樂透頭獎的概率大概是2250萬分之一。到2008年,在「紐約樂透」史上發生過3次有一人中過兩次頭獎的事件。在河北省著名旅遊景點野三坡的螞蟻嶺左側,斷崖邊緣有一塊直徑十米、高四米的「風動石」,此石著地面積不足覆蓋面積的1/20,尤其基部接觸處只有兩個支點。這也算是一個奇蹟。

從概率論觀點看,上述兩個奇蹟的發生並不奇怪,因為即使是極小概率事件,如果重複很多次,會有很大概率發生。假設一事件發生概率為p, 重複n次還不發生的概率為 (1-p)^n,當n足夠大,這一概率就很小,從而該事件發生的概率為1-(1-p)^n就變得很大了。大自然中的奇蹟是地殼在億萬年的變遷中偶然發生的,但這種奇蹟在歷史的長河中最終出現是一種必然現象。

8

辛普森悖論

分組對比中佔優總體上一定佔優嗎?答案是:不一定!下面是一個例子。假定有兩種藥(A和B),要通過分組臨床試驗對比其療效。以下是試驗結果的統計表:從甲乙兩組試驗結果看,藥物A的療效都優於藥物B,但總體來看,藥物B的療效反而優於藥物A。

早在20世紀初,當人們為探究兩種因數是否具有某種相關性而進行分組研究時就發現了這種現象:在分組比較中都佔優勢的一方,在總評中反而是失勢。直到1951年英國統計學家辛普森在他發表的論文中才正式對這一現象給予理論解釋。後人就把這一現象稱為「辛普森悖論」。

9

「統計平均」的陷阱

下面這個例子在現實生活中更加典型,它是「辛普森悖論」的一種表現形式。假定有一公司現有員工100人,另有一研究所,職工150人。在一次普查體檢中,發現公司有糖尿病患者16人,研究所有糖尿病患者36人。從糖尿病患者的患病率來看,研究所的情況比公司嚴重,其患病率分別是24%和16%。但實際情況恰恰相反,這怎麼可能呢?

現在我們換一種統計方式來考察結果,分成年輕人(24-45歲)和中、老年人(46-65歲)兩個組來計算患病率。該公司有90位年輕人,其中患糖尿病12人(患病率13.3%),有中、老年人10人,其中患糖尿病4人(患病率40%);該研究所有50位年輕人,患糖尿病4人(患病率8%),有中、老年人100人,其中患糖尿病32人(患病率32%)。後一種統計方式的結果表明,公司的人,無論是年輕人還是中、老年人,患糖尿病的比例都顯著高於研究所的相應人群。這一分組統計結果比總體統計結果更有說服力。

10

「抽樣調查」的陷阱

在做抽樣調查時,如果數據的採集缺乏代表性,可能導致錯誤的結論,下面是一個著名的例子。在1936年美國大選中,羅斯福總統以62.5%的得票率獲勝連任,擊敗了共和黨候選人蘭登。在選舉前,1935年才由美國統計學家蓋洛普創立的美國民意研究所,只用了5萬多個調查問卷,便成功預測了羅斯福會贏得大選(儘管後來實際得票率比預測高了約7%)。與此成鮮明對照的是,老牌的著名雜誌 《文學文摘》依據高達約240萬份的問卷調查結果,卻預測蘭登將以57%對43%的絕對優勢大勝羅斯福。選舉後不久,《文學文摘》由於這一重大醜聞就倒閉了。

《文學文摘》的預測為什麼會失敗?問題就出在抽樣調查樣本的代表性有嚴重偏差。首先,該雜誌寄出了大約一千萬份問卷,選擇的對象主要來自雜誌的訂戶和一些俱樂部的會員,這些人大都相對比較富裕。當時美國剛從經濟大蕭條中恢復,富人比較傾向支持蘭登,而窮人較多傾向支持羅斯福。另外,問卷的回收率太低,只有 24%,這進一步降低了樣本的代表性,因為收入較低者回答問卷的比例通常要比收入較高者低。

該例子說明,在做統計調查時,要精心設計好方案。例如,採用分層抽樣,並隨機選擇調查對象,這樣才能使抽樣調查的樣本具有代表性。

:本文是筆者的《數齋隨想》(科學出版社,2017)書中一篇同名文章的節選。

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了