谷歌為什麼提供ai技術（谷歌稱之為下一代）

2023-09-16 06:08:50 2

文 | Severus

大家好，我是 Severus，一個在某廠做語言理解的老程式設計師。

今年清明節，Google 搞了一點小動作，在 arxiv 上放出了自己的新工作，PaLM[1] （PaLM: Scaling Language Modeling with Pathways）。這是自去年，Jeff Dean 談論下一代 AI，提出 Pathways[2] 架構之後，其第一次秀出了自己的成績。既然秀肌肉的一件工作，我們不必懷疑，其在各大不同的基準任務上，能展現出什麼樣的非凡能力。論文發出之後，各家大V迅速跟進，各種解讀鋪天蓋地，關於它是什麼樣子的，它的實現細節，它展現了什麼樣的效果，已不必贅述。今天，我想要談一談，Pathways 及其背後的思想，可能會開啟什麼新的紀元？為什麼 Jeff Dean 認為它是下一代的 AI 架構？

1 緣起：Swtich Transformer

事情還是要回到去年1月份。彼時以 GPT-3 為首，預訓練語言模型界颳起了大模型之風。當然，這股風浪到現在也沒有過去，千億級別的大模型，仍然是你方唱罷我登場。而在那個時候，Google 一篇Switch Transformers[3] 引起了我的注意。說來慚愧，當時我注意到這篇工作，還是因為某公眾號提出了「萬億」這一關鍵詞。而彼時由於大模型的風颳了太久，對這種工作我充滿了不屑，且 Google 是出了名的「大力出奇蹟」，我也僅僅是將其當成了卷出新高度的工作，打開看了一眼。

我承認，我被打臉了，Switch Transformers 想要秀出來的，不只是 Google 的廚力有多強，更在於，他們翻出了一個古老而優美的架構——Geoffrey Hinton 於1991年提出的，混合專家模型[4]（Mixture Of Experts，下稱 MoE）。

MoE，與我們通常所理解的 DNN模型的很大區別是，其內部不是由一個統一的模型組成，而是由若干個小模型組成，一次計算會使用哪些小模型，由一個稀疏門控系統決定[5]。當時我注意到的是，把大模型變成若干個小模型，技術上的意義則是，計算量會降低，運算效率會變快，自然，模型的總參數量也就可以變得更大。

需要說明的是，在這個時候，我對 MoE 前景的理解是極其淺薄的，那個時候的我根本沒有看到，其後面的巨大價值。

而到了去年10月底，也就是 Pathways 發布臨近，馬後炮地說，我在和同事暢想未來的時候，也提出了類似的設想，並將之放在了我11月的技術分享中，作為「未來篇」的結尾。現在想來，這是一個美好的巧合，從當前 AI 技術的發展步調來看，卻也是一個歷史的必然。

以我老 CS 人的嗅覺，我發現，MoE 的潛在價值在於其工程思想，這一架構，給多任務，乃至多模態提供了一個新的、且我認為更加靠譜的方向。

2 無限統合

首先，既然 MoE 的各個專家由稀疏門控制，則專家之間相互可看作是獨立的。那麼我們就可以做一個非常樸素的猜測，不同的任務，可以由門控系統分配給不同的專家來處理，這樣任務之間就不會有太大的影響。這一點個人認為是比較重要的，因為不同的任務，大概率會有相互之間衝突的地方，雖然大模型可以依靠大規模參數所帶來的記憶能力，緩解這一問題。

通常多任務學習的前提假設是，多個任務之間，是可以互相增益的，其潛在邏輯在於，多個任務所應用到的知識，存在共通的地方。實際上，預訓練模型或預訓練特徵（word2vec等），就是找到一種看上去所有任務都會用到的自監督特徵，使用大量的語料訓練出來，保證覆蓋，使之在遷移學習上成立。
而獨立，則可以真正地讓一個系統處理多個任務。
而如我上面所提，那不是就意味著，多個任務之間共通的那部分特徵也就獨立，造成不必要的冗餘了呢？實際上，哪怕只有一個任務輸入到 MoE 系統中，也不可能只激活一個專家，單個任務，也有可能同時激活多個專家，那麼，我們是否可以認為，激活的這多個專家，實際上已經把這個任務給拆解開了呢？理想狀況下，被激活的各個專家各司其職，分別抽取一部分特徵，再通過某種方式結合起來，決定了模型的輸出。
那麼，多任務場景之下，理想狀況下，就可以認為，任務之間共通的知識，由相同的專家學到，而任務之間差異的知識，則由不同的專家捕捉，二者有機結合，形成了一個統合的多任務系統。
說到這，我們就可以把腦洞開的更大一些了，多任務可以解決，多模態能否解決呢？
我認為，Pathways 所代表的思想，是一種更加有力的多模態解決方案。
3 多模態與 Pathways
當前多模態最大的困境是什麼呢？實際上是數據空間無法對齊。以文本與圖片為例，請小夥伴們同我思考，當我說出「一匹馬」的時候，你的腦海中會想像出多少張圖片？
而當我讓你描述這樣一張圖片的時候，你的腦海中又能蹦出多少種描述方式？
我想這兩個問題的答案，都是無限，對吧？這也就意味著，通用意義上，或當任務空間足夠大的時候，圖片和文本數據，是不可能對齊的。數據無法對齊，訓練過程中，多模的知識自然也會趨向過擬合式的綁定，這也就意味著，單個 dense 網絡結構的多模態模型，僅僅可以處理足夠窄場景的多模任務，如某音的短視頻搜索。
而到了 MoE 中，如我前面所說，不需要做數據對齊，同時也沒有直接去硬性組合最終的輸出，而是在中間層的抽象特徵上，做了映射和組合。這樣一種結構，不敢說通用，至少處理更大場景、更多元的多模任務時，看上去更加合理一些。
那麼我們可以大膽設想，預訓練-微調可以是這個樣子的：訓練一個包羅萬象的大模型，由這個大模型，則可以導出各種處理專用任務的小模型，這可能才是有錢有算力的機構的使命所在。由於大模型是保羅萬象的，內部是由多個獨立專家組成的，我們不必再擔心 fine-tuning 會破壞模型原本學到的知識，預訓練階段學到的知識也能夠得到更好的利用。
最後一部分，我想要從另一個角度，談一下為什麼我相信 Pathways。
4 從認知科學的角度
人工智慧研究的目標之一，是真正做出一個強智能，而由於目前，我們能夠參考的唯一一個真正的強智能，只有我們自己，所以接下來，我將以我對人腦粗淺的認識為類比，繼續聊一聊 Pathways。
我們繼續以多模態為例。首先，人處理信息的時候，一定是多模態的，這個已經是一個常識了。所以多模態也一定是 AI 的趨勢。但是，單個 dense 模型的多模態研究，前文已提到，需要的是數據的對齊，而用認知的話來講，則是用一個感知系統去處理多種感知信號（需要說明的是，這裡所說的感知系統與器官不是等同概念）。
是的，人是多模的，但是，人不是這麼處理感知信號的，對於不同形式的感知信號，人是有不同的感知系統對應處理的，而同時又有認知系統進一步處理感知信號，形成我們對世界的認知。
人腦是有多個感知系統的，而感知系統之間，又是相對獨立的，不同的感知系統有可能分布在不同的腦區。同時，去年我關注到畢彥超老師關於知識的雙重編碼理論的工作[6]，他們的實驗結論表明，先天盲人也是能夠通過認知系統，學習到「紅色」這一概念的，也就說明了，即使對於顏色的感知系統缺失了，人依舊能夠學會顏色概念。同時，通過核磁共振成像，也可以觀察到，在提到顏色概念時，先天盲人被激活的腦區，和視覺正常的人被激活的腦區，是不一樣的。也就說明，感知系統和認知系統也分布在不同的腦區，且相互獨立。
這種結構，保證了很好的容錯能力。即，人的某一個感知系統出現問題了，一般不會影響到其他的感知系統（雙目失明的人同樣可以聽到聲音，嘗到味道）；而某一感知系統缺失，也可以不影響人的認知。
那麼，我們將這些對應到我上文所講到，Pathways 的前景上，是不是可以說，相比於單純的堆砌神經元數量，它和目前認知科學所理解到的，大腦的運行機制，非常像呢？不同的感知系統，對應不同的專家網絡，而從感知到認知，則在系統中作為抽象特徵組合，也由更高層次的專家網絡處理，部分通用的知識，也由認知系統存儲了下來；且不同的模態，或不同的特徵可以預設，增強了整體的容錯能力。從這個角度來看，的確，下一代的智能可能就應該是這個樣子的。
我不敢妄言具象的 Pathways 一定就是未來，從最抽象的意義上講，它提出了一條可行的路徑，或許可以通往智能。
當然，做這個東西的大前提是，有錢……
參考文獻
[1] Chowdhery A, Narang S, Devlin J, et al. PaLM: Scaling Language Modeling with Pathways[J]. arXiv preprint arXiv:2204.02311, 2022.
[2] https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
[3] Fedus W, Zoph B, Shazeer N. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity[J]. arXiv preprint arXiv:2101.03961, 2021.
[4] Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural computation, 1991, 3(1): 79-87.
[5] Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
[6] Bi Y. Dual coding of knowledge in the human brain[J]. Trends in Cognitive Sciences, 2021, 25(10): 883-895.
萌屋作者：Severus
Severus，在某廠工作的老程式設計師，主要從事自然語言理解方向，資深死宅，日常憤青，對個人覺得難以理解的同行工作都採取直接吐槽的態度。筆名取自哈利波特系列的斯內普教授，覺得自己也像他那麼自閉、刻薄、陰陽怪氣，也嚮往他為愛而偉大。
,