阿爾法狗是什麼類型的人工智慧（人工智慧-阿爾法狗背後的簡單原理）

2023-05-21 17:29:45 1

AlphaGo為代表的人工智慧，徹底的戰勝了人類的圍棋大師，震撼了全世界，那麼人工智慧的背後，有著怎樣的科技在支撐？本文要介紹的就是人工智慧背後的簡單原理——貝葉斯公式。

人工智慧、無人駕駛、語音圖片識別與大數據有什麼關係？海難空難如何搜救？垃圾簡訊、垃圾郵件如何識別？這些看起來彼此不相關的領域之間會有什麼聯繫嗎？答案是，它們都會用到同一個數學公式——貝葉斯公式。它雖然看起來很簡單、很不起眼，但卻有著深刻的內涵。那麼貝葉斯公式是如何從默默無聞到現在廣泛應用、無所不能的呢？先來看兩個經典例子。

1、天蠍號核潛艇搜救

2014年初馬航MH370航班失聯，所有人都密切關注搜救的進展情況。那麼我們是用什麼方法在茫茫大海中尋找失聯的飛機或者船隻的呢？這要從天蠍號核潛艇說起。

1968年5月，美國海軍的天蠍號核潛艇在大西洋亞速海海域突然失蹤，潛艇和艇上的99名海軍官兵全部杳無音信。按照事後調查報告的說法，罪魁禍首是這艘潛艇上的一枚奇怪的魚雷，發射出去後竟然敵我不分，扭頭射向自己，讓潛艇中彈爆炸。

為了尋找天蠍號的位置，美國政府從國內調集了包括多位專家的搜索部隊前往現場，其中包括一位名叫John Craven的數學家，他的頭銜是「美國海軍特別計劃部首席科學家」。在搜尋潛艇的問題上，Craven提出的方案使用了上面提到的貝葉斯公式。他召集了數學家、潛艇專家、海事搜救等各個領域的專家。每個專家都有自己擅長的領域，但並非通才，沒有專家能準確估計到在出事前後潛艇到底發生了什麼。有趣的是，Craven並不是按照慣常的思路要求團隊成員互相協商尋求一個共識，而是讓各位專家編寫了各種可能的「劇本」，讓他們按照自己的知識和經驗對於情況會向哪一個方向發展進行猜測，並評估每種情境出現的可能性。據說，為了給枯燥的工作增加一些趣味，Craven還準備了威士忌酒作為「投注」正確的獎品。

因為在Craven的方案中，結果很多是這些專家以猜測、投票甚至可以說賭博的形式得到的，不可能保證所有結果的準確性，他的這一做法受到了很多同行的質疑。可是因為搜索潛艇的任務緊迫，沒有時間進行精確的實驗、建立完整可靠的理論，Craven的辦法不失為一個可行的辦法。

由於失事時潛艇航行的速度快慢、行駛方向、爆炸衝擊力的大小、爆炸時潛艇方向舵的指向都是未知量，即使知道潛艇在哪裡爆炸，也很難確定潛艇殘骸最後被海水衝到哪裡。Craven粗略估計了一下，半徑20英裡的圓圈內的數千英尺深的海底，都是天蠍號核潛艇可能沉睡的地方，要在這麼大的範圍，這麼深的海底找到潛艇幾乎成了不可能完成的任務。

Craven把各位專家的意見綜合到一起，得到了一張20英裏海域的概率圖。整個海域被劃分成了很多個小格子，每個小格子有兩個概率值p和q，p是潛艇躺在這個格子裡的概率，q是如果潛艇在這個格子裡，它被搜索到的概率。按照經驗，第二個概率值主要跟海域的水深有關，在深海區域搜索失事潛艇的「漏網」可能性會更大。如果一個格子被搜索後，沒有發現潛艇的蹤跡，那麼按照貝葉斯公式，這個格子潛艇存在的概率就會降低：

由於所有格子概率的總和是1，這時其他格子潛艇存在的概率值就會上升：

每次尋找時，先挑選整個區域內潛艇存在概率值最高的一個格子進行搜索，如果沒有發現，概率分布圖會被「洗牌」一次，搜尋船隻就會駛向新的「最可疑格子」進行搜索，這樣一直下去，直到找到天蠍號為止。

最初開始搜救時，海軍人員對Craven和其團隊的建議嗤之以鼻，他們憑經驗估計潛艇是在爆炸點的東側海底。但幾個月的搜索一無所獲，他們才不得不聽從了Craven的建議，按照概率圖在爆炸點的西側尋找。經過幾次搜索，潛艇果然在爆炸點西南方的海底被找到了。

由於這種基於貝葉斯公式的方法在後來多次搜救實踐中被成功應用，現在已經成為海難空難搜救的通行做法。

2009年法航空難搜救的後驗概率分布圖：

2014馬航MH370失聯搜索區域：

2、聯邦黨人文集作者公案

1787年5月，美國各州（當時為13個）代表在費城召開制憲會議；1787年9月，美國的憲法草案被分發到各州進行討論。一批反對派以「反聯邦主義者」為筆名，發表了大量文章對該草案提出批評。憲法起草人之一亞歷山大·漢密爾頓著急了，他找到曾任外交國務秘書（即後來的國務卿）的約翰·傑伊，以及紐約市國會議員麥迪遜，一同以普布利烏斯（Publius）的筆名發表文章，向公眾解釋為什麼美國需要一部憲法。他們走筆如飛，通常在一周之內就會發表3-4篇新的評論。1788年，他們所寫的85篇文章結集出版，這就是美國歷史上著名的《聯邦黨人文集》。

《聯邦黨人文集》出版的時候，漢密爾頓堅持匿名發表，於是，這些文章到底出自誰人之手，成了一樁公案。1810年，漢密爾頓接受了一個政敵的決鬥挑戰，但出於基督徒的宗教信仰，他決意不向對方開槍。在決鬥之前數日，漢密爾頓自知時日不多，他列出了一份《聯邦黨人文集》的作者名單。1818年，麥迪遜又提出了另一份作者名單。這兩份名單並不一致。在85篇文章中，有73篇文章的作者身份較為明確，其餘12篇存在爭議。

1955年，哈佛大學統計學教授Fredrick Mosteller找到芝加哥大學的年輕統計學家David Wallance，建議他跟自己一起做一個小課題，他想用統計學的方法，鑑定出《聯邦黨人文集》的作者身份。

但這根本就不是一個小課題。漢密爾頓和麥迪遜都是文章高手，他們的文風非常接近。從已經確定作者身份的那部分文本來看，漢密爾頓寫了9.4萬字，麥迪遜寫了11.4萬字。漢密爾頓每個句子的平均長度是34.55字，而麥迪遜是34.59字。就寫作風格而論，漢密爾頓和麥迪遜簡直就是一對雙胞胎。漢密爾頓和麥迪遜寫這些文章，用了大約一年的時間，而Mosteller和Wallance甄別出作者的身份花了10多年的時間。

如何分辨兩人寫作風格的細微差別，並據此判斷每篇文章的作者就是問題的關鍵。他們所採用的方法就是以貝葉斯公式為核心的包含兩個類別的分類算法。先挑選一些能夠反映作者寫作風格的詞彙，在已經確定了作者的文本中，對這些特徵詞彙的出現頻率進行統計，然後再統計這些詞彙在那些不確定作者的文本中的出現頻率，從而根據詞頻的差別推斷其作者歸屬。這其實和我們現在使用的垃圾郵件過濾器的原理是一樣的。

他們是在沒有計算機幫助的條件下用手工處理「大數據」，這一工程的耗時耗力是可想而知的。將近100個哈佛大學的學生幫助他們處理數據。學生們用最原始的方式，用打字機把《聯邦黨人文集》的文本打出來，然後把每個單詞剪下來，按照字母表的順序，把這些單詞分門別類地匯集在一起。有個學生幹得累了，伸了個懶腰，長長地呼了一口氣。他這一口氣用力太猛，一下子把剛剛歸置好的單詞條吹得如柳絮紛飛，一屋子學生瞬間石化，估計很多人連滅了他的心都有。而這只是手工大數據時代的日常。

Mosteller和Wallance這是要在乾草垛裡找繡花針。他們首先剔除掉用不上的詞彙。比如，《聯邦黨人文集》裡經常談到「戰爭」、「立法權」、「行政權」等，這些詞彙是因主題而出現，並不反映不同作者的寫作風格。只有像「in」，「an」，「of」，「upon」這些介詞、連詞等才能顯示出作者風格的微妙差異。一位歷史學家好心地告訴他們，有一篇1916年的論文提到，漢密爾頓總是用「while」，而麥迪遜則總是用「whilst」。但僅僅有這一個線索是不夠的。「while」和「whilst」在這12篇作者身份待定的文章裡出現的次數不夠多。況且，漢密爾頓和麥迪遜有時候會合寫一篇文章，也保不齊他們會互相改文章，要是漢密爾頓把麥迪遜的「whilst」都改成了「while」呢？

當學生們把每個單詞的小紙條歸類、粘好之後，他們發現，漢密爾頓的文章裡平均每一頁紙會出現兩次「upon」，而麥迪遜幾乎一次也不用。漢密爾頓更喜歡用「enough」，麥迪遜則很少用。其它一些有用的詞彙包括：「there」、「on」等等。1964年，Mosteller和Wallance發表了他們的研究成果。他們的結論是，這12篇文章的作者很可能都是麥迪遜。他們最拿不準的是第55篇，麥迪遜是作者的概率是240：1。

這個研究引起了極大的轟動，但最受震撼的不是憲法研究者，而是統計學家。Mosteller和Wallance的研究，把貝葉斯公式這個被統計學界禁錮了200年的幽靈從瓶子中釋放了出來。

一、什麼是貝葉斯公式

18世紀英國業餘數學家託馬斯·貝葉斯提出過一種看上去似乎顯而易見的觀點：「用客觀的新信息更新我們最初關於某個事物的信念後，我們就會得到一個新的、改進了的信念。」這個研究成果，因為簡單而顯得平淡無奇，直到他死後的兩年才於1763年由他的朋友理察·普萊斯幫助發表。它的數學原理很容易理解，簡單說就是，如果你看到一個人總是做一些好事，則會推斷那個人多半會是一個好人。這就是說，當你不能準確知悉一個事物的本質時，你可以依靠與事物特定本質相關的事件出現的多少去判斷其本質屬性的概率。用數學語言表達就是：支持某項屬性的事件發生得愈多，則該屬性成立的可能性就愈大。與其他統計學方法不同，貝葉斯方法建立在主觀判斷的基礎上，你可以先估計一個值，然後根據客觀事實不斷修正。

1774年，法國數學家皮埃爾-西蒙·拉普拉斯獨立地再次發現了貝葉斯公式。拉普拉斯關心的問題是：當存在著大量數據，但數據又可能有各種各樣的錯誤和遺漏的時候，我們如何才能從中找到真實的規律。拉普拉斯研究了男孩和女孩的生育比例。有人觀察到，似乎男孩的出生數量比女孩更高。這一假說到底成立不成立呢？拉普拉斯不斷地搜集新增的出生記錄，並用之推斷原有的概率是否準確。每一個新的記錄都減少了不確定性的範圍。拉普拉斯給出了我們現在所用的貝葉斯公式的表達：

P(A/B)=P(B/A)*P(A)/P(B)，

該公式表示在B事件發生的條件下A事件發生的條件概率，等於A事件發生條件下B事件發生的條件概率乘以A事件的概率，再除以B事件發生的概率。公式中，P(A）也叫做先驗概率，P(A/B)叫做後驗概率。嚴格地講，貝葉斯公式至少應被稱為「貝葉斯-拉普拉斯公式」。

二、默默無聞200年

貝葉斯公式現在已經非常流行，甚至在熱門美劇《生活大爆炸》中謝耳朵也秀了一下。但它真正得到重視和廣泛應用卻是最近二三十年的事，其間被埋沒了200多年。這是為什麼呢？原因在於我們有另外一種數學工具——經典統計學，或者叫頻率主義統計學（我們在學校學的主要是這種統計學），它在200多年的時間裡一直表現不錯。從理論上講，它可以揭示一切現象產生的原因，既不需要構建模型，也不需要默認條件，只要進行足夠多次的測量，隱藏在數據背後的原因就會自動揭開面紗。

在經典統計學看來，科學是關於客觀事實的研究，我們只要反覆觀察一個可重複的現象，直到積累了足夠多的數據，就能從中推斷出有意義的規律。而貝葉斯方法卻要求科學家像算命先生一樣，從主觀猜測出發，這顯然不符合科學精神。就連拉普拉斯後來也放棄了貝葉斯方法這一思路，轉向經典統計學。因為他發現，如果數據量足夠大，人們完全可以通過直接研究這些樣本來推斷總體的規律。

打個比方來幫助我們理解這兩種統計學方法的區別。假如我們想知道某個區域裡海拔最低的地方，經典統計學的方法是首先進行觀測，取得區域內不同地方的海拔數據，然後從中找出最低點。這個數據量必須足夠多，以反映區域內地形全貌的特徵，這樣我們才能相信找到的就是實際上的最低點。而貝葉斯方法是我不管哪裡最低，就憑感覺在區域內隨便選個地方開始走，每一步都往下走，雖然中間可能有一些曲折，但相信這樣走早晚能夠到達最低點。可以看出，貝葉斯方法的關鍵問題是這個最終到達的低點可能不是真正的最低點，而是某個相對低點，它可能對該區域的地形（碗型、馬鞍形等）和最初我們主觀選擇的出發點有依賴性。如果問題域是碗型的，我們到達的就是最低點；但如果是馬鞍形或者其他複雜曲面，那麼我們到達的可能是多個相對低點（極點）中的一個，而不是真正的最低點。這是貝葉斯方法最受經典統計學方法詬病的原因，也是它在過去的200多年被雪藏的原因所在。

貝葉斯方法原理示意圖：

三、初顯威力

長期以來，貝葉斯方法雖然沒有得到主流學界的認可，但其實我們經常會不自覺地應用它來進行決策，而且還非常有效。比如炮兵在射擊時會使用貝葉斯方法進行瞄準。炮彈與子彈不同，它的飛行軌跡是拋物線，瞄準的難度更大，因此他們會先根據計算和經驗把炮管調整到一個可能命中的瞄準角度（先驗概率），然後再根據炮彈的實際落點進行調整（後驗概率），這樣在經過2-3次射擊和調整後炮彈就能夠命中目標了。

在日常生活中，我們也常使用貝葉斯方法進行決策。比如在一個陌生的地方找餐館吃飯，因為之前不了解哪家餐館好，似乎只能隨機選擇，但實際上並非如此，我們會根據貝葉斯方法，利用以往積累的經驗來提供判斷的線索。經驗告訴我們，通常那些坐滿了客人的餐館的食物要更美味些，而那些客人寥寥的餐館，食物可能不怎麼樣而且可能會被宰。這樣，我們就往往通過觀察餐廳的上座率來選擇餐館就餐。這就是我們根據先驗知識進行的主觀判斷。在吃過以後我們對這個餐館有了更多實際的了解，以後再選擇時就更加容易了。所以說，在我們認識事物不全面的情況下，貝葉斯方法是一種很好的利用經驗幫助作出更合理判斷的方法。

而正是天蠍號核潛艇搜救和聯邦黨人文集作者公案，兩個標誌性的事件在讓學術界開始重視貝葉斯方法上起到了重要作用。

與計算機的結合使貝葉斯公式巨大的實用價值進一步體現出來，它不但為我們提供了一條全新的問題解決路徑，帶來工具和理念的革命，而且甚至可能是人類大腦本身的認知和構建方式。

貝葉斯公式在聯邦黨人文集作者公案和天蠍號核潛艇搜救中大顯身手後，開始引起學術界的注意和重視，而其上世紀八十年代在自然語言處理領域的成功，向我們展示了一條全新的問題解決路徑。計算能力的不斷提高和大數據的出現使它的威力日益顯現，一場轟轟烈烈的「貝葉斯革命」正在發生。

四、真正的突破

自然語言處理就是讓計算機代替人來翻譯語言、識別語音、認識文字和進行海量文獻的自動檢索。但是人類的語言可以說是信息裡最複雜最動態的一部分。人們最初想到的方法是語言學方法，讓計算機學習人類的語法、分析語句等等。尤其是在喬姆斯基（有史以來最偉大的語言學家）提出「形式語言」以後，人們更堅定了利用語法規則的辦法進行文字處理的信念。遺憾的是，幾十年過去了，在計算機語言處理領域，基於這個語法規則的方法幾乎毫無突破。

其實早在幾十年前，數學家兼資訊理論的祖師爺香農 (Claude Shannon)就提出了用數學方法處理自然語言的想法。遺憾的是當時的計算機根本無法滿足大量信息處理的需要，所以他的這一想法並沒有引起重視。

率先成功利用數學方法解決自然語言處理問題的是語音和語言處理大師賈裡尼克 (Fred Jelinek)。他引入一個全新的視角，認為語音識別就是根據接收到的一個信號序列推測說話人實際發出的信號序列（說的話）和要表達的意思。這就把語音識別問題轉化為一個通信問題，而且進一步可以簡化為用貝葉斯公式處理的數學問題。

一般情況下，一個句子中的每個字符都跟它前面的所有字符相關，這樣公式中的條件概率計算就非常複雜，難以實現。為了簡化問題，他做了兩個假設：

1、說話人說的句子是一個馬爾科夫鏈，也就是說，句子中的每個字符都只由它前一個字符決定；

2、獨立輸入假設，就是每個接受的字符信號只由對應的發送字符決定。

這樣的簡化看起來有點簡單粗暴，每個字符在語義上都是和文章的其他部分相關的，怎麼可能只跟它前一個字符相關呢？很多人不相信用這麼簡單的數學模型能解決複雜的語音識別、機器翻譯等問題。其實不光是一般人，就連很多語言學家都曾質疑過這種方法的有效性。但事實證明，這個基於貝葉斯公式的統計語言模型比任何當時已知的藉助某種規則的解決方法都有效。賈裡尼克和貝克夫婦在七十年代分別獨立提出用這個模型進行語音識別，八十年代微軟公司用這個模型成功開發出第一個大詞彙量連續語音識別系統。現在我們手機上的語音識別和語音輸入功能都已經非常成熟而且好用了。

更加可貴的是，這種語音識別系統不但能夠識別靜態的詞庫，而且對詞彙的動態變化具有很好的適應性，即使是新出現的詞彙，只要這個詞已經被大家高頻使用，用於訓練的數據量足夠多，系統就能正確地識別。這反映出貝葉斯公式對現實變化的高度敏感，對增量信息有非常好的適應能力。

自然語言處理方面的成功開闢了一條全新的問題解決路徑：

1、原來看起來非常複雜的問題可以用貝葉斯公式轉化為簡單的數學問題；

2、可以把貝葉斯公式和馬爾科夫鏈結合以簡化問題，使計算機能夠方便求解；雖然我們不完全了解為什麼這種看似粗暴的簡化並不影響我們的研究過程，但從實踐看來它非常有效；

3、將大量觀測數據輸入模型進行迭代——也就是對模型進行訓練，我們就可以得到希望的結果。

隨著計算能力的不斷提高、大數據技術的發展，原來手工條件下看起來不可思議的進行模型訓練的巨大工作量變得很容易實現，它們使貝葉斯公式巨大的實用價值體現出來。

五、經典統計學的困難和貝葉斯革命

1、經典統計學的困難

當貝葉斯方法在實際應用中不斷證明自己的同時，經典統計學卻遇到了困境。經典統計學比較適合於解決小型的問題，同時該方法要求我們獲得足夠多的樣本數據，而且要求這些樣本能夠代表數據的整體特徵。在處理涉及幾個參數的問題時，它可以得心應手。但如果相對於問題的複雜程度，我們只掌握少量的信息時，經典統計學就顯得力不從心了，原因就是數據的稀疏性問題。

都大數據時代了，還存在數據稀疏性問題嗎？答案是肯定的。具體來說，一個取決於n個參數，並且每個參數只有兩種表現（0或者1）的系統，共有2的n次方種現象。如果某類癌症的產生過程中有100個基因參與（這其實很保守了，人類總共有幾萬個基因），那麼它有2的100次方種可能的基因圖譜；根據採樣定理進行估算，採用經典統計學方法至少需要獲得1%-10%的樣本才能確定其病因，也就是需要製作出數萬億億億個患有該疾病的病人的基因圖譜！這不具備可操作性。所以用經典統計學方法無法解釋由相互聯繫、錯綜複雜的原因（相關參數）所導致的現象。

2、貝葉斯網絡帶來工具革命

而目前的情況是，相對簡單的問題已經解決得差不多了，剩下的都非常複雜。龍捲風的形成、星系的起源、致病基因、大腦的運作機制等，要揭示隱藏在這些問題背後的規律，就必須理解它們的成因網絡，把錯綜複雜的事件梳理清楚。由於經典統計學失效，科學家別無選擇，他們必須從眾多可能奏效的法則中選擇一些可以信任的，並以此為基礎建立理論模型。為了能做出這樣的選擇，為了能在眾多可能性中確定他們認為最為匹配的，過去，科學家多少是依靠直覺來彌補數據上的缺失和空白。而貝葉斯公式正好以嚴謹的數學形式幫他們實現了這一點。科學家把所有假設與已有知識、觀測數據一起代入貝葉斯公式，就能得到明確的概率值。而要破譯某種現象的成因網絡，只需將公式本身也結成網絡，即貝！葉！斯！網！絡！，它是貝葉斯公式和圖論結合的產物，一種全新的科學高效的工具。

網絡化想法的提出也不是一帆風順的。直到上世紀80年代，美國數學家朱迪亞·珀爾才證明，使用貝葉斯網絡應該可以揭示複雜現象背後的成因。操作原理是這樣的：如果我們不清楚一個現象的成因，首先根據我們認為最有可能的原因來建立一個模型；然後把每個可能的原因作為網絡中的節點連接起來，根據已有的知識、我們的預判或者專家意見給每個連接分配一個概率值。接下來只需要向這個模型代入觀測數據，通過網絡節點間的貝葉斯公式重新計算出概率值。為每個新數據、每個連接重複這種計算，直到形成一個網絡圖，任意兩個原因之間的連接都得到精確的概率值為止，就大功告成了。即使實驗數據存在空白或者充斥噪聲和幹擾信息，不懈追尋各種現象發生原因的貝葉斯網絡依然能夠構建出各種複雜現象的模型。貝葉斯公式的價值在於，當觀測數據不充分時，它可以將專家意見和原始數據進行綜合，以彌補測量中的不足。我們的認知缺陷越大，貝葉斯公式的價值就越大。

心血管疾病成因的貝葉斯網絡

和前面提到的馬爾可夫鏈類似，我們可以假設貝葉斯網絡中每個節點的狀態值取決於其前面的有限個狀態。不同的是，貝葉斯網絡比馬爾可夫鏈靈活，它不受馬爾可夫鏈的鏈狀結構的約束，因此可以更準確地描述事件之間的相關性。可以說，馬爾可夫鏈是貝葉斯網絡的特例，而貝葉斯網絡是馬爾可夫鏈的推廣，它給複雜問題提供了一個普適性的解決框架。

為了確定各個節點之間的相關性，需要用已知數據對貝葉斯網絡進行迭代和訓練。由於網絡結構比較複雜，理論上，用現有的計算機是不可計算的（基於馮·諾依曼結構的計算機無法解決這種NP複雜度的問題，NP（Non-deterministic Polynomial）指用非確定機在多項式時間內可以解決的問題類）。但對於一些具體的應用，可以根據實際情況對網絡結構（採用網絡拓撲的圖同構技術）和訓練過程進行簡化，使它在計算上可行。如果量子計算機開發成功，將能夠完全解決其計算問題。這樣，貝葉斯公式為科學家開闢的新路就完全打通了。

今天一場轟轟烈烈的「貝葉斯革命」正在發生：生物學家用貝葉斯公式研究基因的致病機制；基金經理用貝葉斯公式找到投資策略；網際網路公司用貝葉斯公式改進搜索功能，幫助用戶過濾垃圾郵件；大數據、人工智慧和自然語言處理中都大量用到貝葉斯公式。既然在手工時代，我們無法預測到今天貝葉斯公式與計算機結合的威力，那麼我們怎麼能忽視貝葉斯網絡與量子計算機結合可能蘊藏的巨大潛力呢？

3、人類大腦的構建方式？

貝葉斯公式不僅在自然科學領域掀起革命，它的應用範圍也延伸到了關於人類行為和人類大腦活動的研究領域。教育學家突然意識到，學生的學習過程其實就是貝葉斯公式的運用；心理學家證明貝葉斯方法是兒童運用的唯一思考方法，其他方法他們似乎完全不會。進一步，心理學研究的成果使科學家思考人類的大腦結構是否就是一個貝葉斯網絡。這個公式不僅是研究人類思維的工具，它可能就是大腦本身的構建方式。這個觀點十分大膽，但獲得越來越廣泛的認可。因為貝葉斯公式是我們在沒有充分或準確信息時最優的推理結構，為了提高生存效率，進化會向這個模式演進。貝葉斯公式突然滲透到一切科學領域，提供了通用的研究框架，這是十分罕見的事情。

人工智慧近年來取得了長足的進步，但目前的人工智慧通常需要從大量的數據中進行學習（需要大數據的支持），而人類具有「僅從少量案例就形成概念」的能力，兩者之間存在巨大差距。比如，儘管你這輩子只見過一個菠蘿，但你一眼就能看出菠蘿的特徵，很快就能從一堆水果中認出菠蘿來，甚至還能在紙上畫出菠蘿的簡筆畫，而目前的人工智慧算法得看成千上萬張菠蘿的圖片才能做到。人工智慧最典型的代表AlphaGo，也是建立在千萬甚至過億次的圍棋對弈的基礎上才戰勝人類的，也需要大數據的支持，同樣的，目前的語音識別、文字識別、圖片識別也是建立在大數據的基礎之上。

不過，這種情況或許已經開始改變了。2015年底，一篇人工智慧論文登上了《科學》雜誌的封面，為人們帶來了人工智慧領域的一個重大突破：三名分別來自麻省理工學院、紐約大學和多倫多大學的研究者開發了一個「只看一眼就會寫字」的計算機系統。只需向這個系統展示一個來自陌生文字系統的字符，它就能很快學到精髓，像人一樣寫出來，甚至還能寫出其他類似的文字——更有甚者，它還通過了圖靈測試，我們很難區分下圖中的字符是人類還是機器的作品。這個系統採用的方法就是貝葉斯程序學習——一種基於貝葉斯公式的方法。這不但是人工智慧領域的重大突破，而且為我們認識人腦的學習機制提供了重要參考。

人和機器作品對比圖（圖片來源：science）

六、理念的革命

這不僅僅是一場科學的革命，同樣也是一場理念的革命。當科學不斷強調其對世界認識的客觀性時，貝葉斯公式卻融入了主觀性因素：它並不向我們表述世界，而是表述我們所掌握的知識和經驗。這些帶有觀察者個人因素的知識是脫離研究現象本身的；而它在向我們描述外部現實世界的同時，也描述了觀察者對現實的認知的缺陷。更重要的，它迫使我們認識到，科學理論和科學模型反映的是現實的心理意象，而不是現實本身。而現實為我們提供數據，以保證對現實的意象不會離現實本身太遠。在尋找各種現象原因的同時，它也在規範著我們的思想。

七、貝葉斯公式這麼牛，與我何幹？

我們經常需要在信息不充分或者不準確的情況下進行判斷和決策，一條街上哪個飯館最靠譜？在自習室驚鴻一瞥的女神有沒有男朋友？老公的公文包裡發現一隻口紅，他有沒有出軌？新開發的App應該等做得盡善盡美再發布，還是應該儘早發布，用網際網路的力量幫助它完善？我應該選擇哪個工作offer或者還是考公務員才能使自己的收益最大化？

貝葉斯公式為我們提供了一些決策原則：

平時注意觀察和思考，建立自己的思維框架，這樣在面臨選擇時就容易形成一個接近實際情況的先驗概率，這樣經過少量的試錯和糾錯的迭代循環就可能得到理想的結果；在經過很多次選擇和實踐的歷練後就能夠形成自己的直覺，在面對陌生情況時，根據自己的經驗和少量信息就能夠快速地做出比較準確的判斷。

大數據時代獲得信息的成本越來越低，社會也變得更加開放和包容，初始狀態（先驗概率）的重要性下降了，即使最初選擇不理想，只要根據新情況不斷進行調整，仍然可以取得成功。所以如果當下覺得很難做出選擇，那就傾聽內心的聲音，讓直覺來選擇，這有利於治療選擇恐懼症。

以開發App的例子來說，先按照自己的想法弄個可用的原型出來，然後充分利用網際網路的力量，讓活躍的用戶社區幫助它快速迭代，逐漸使它的功能和體驗越來越好。

對新鮮事物保持開放的心態，願意根據新信息對自己的策略和行為進行調整。

「大膽假設，小心求證」，「不斷試錯，快速迭代」，這些都可以看成貝葉斯公式的不同表述。英國哲學家以賽亞·伯林（Isaish Berlin）曾經援引古希臘詩人的斷簡殘片「狐狸多知而刺蝟有一大知」，將人的策略分為狐狸和刺蝟兩類。刺蝟用一個宏大的概念解釋所有現象，而狐狸知道很多事情，用多元化的視角看待問題，它也願意包容新的證據以使得自己的模型與之相適應。在這個快速變化的時代，固守一個不變的信條的刺蝟很難適應環境的變化，而使用貝葉斯公式的靈活的狐狸才更容易生存。