谷歌為什麼提供ai技術(谷歌稱之為下一代)
2023-09-16 06:08:50 2
文 | Severus
大家好,我是 Severus,一個在某廠做語言理解的老程式設計師。
今年清明節,Google 搞了一點小動作,在 arxiv 上放出了自己的新工作,PaLM[1] (PaLM: Scaling Language Modeling with Pathways)。這是自去年,Jeff Dean 談論下一代 AI,提出 Pathways[2] 架構之後,其第一次秀出了自己的成績。既然秀肌肉的一件工作,我們不必懷疑,其在各大不同的基準任務上,能展現出什麼樣的非凡能力。論文發出之後,各家大V迅速跟進,各種解讀鋪天蓋地,關於它是什麼樣子的,它的實現細節,它展現了什麼樣的效果,已不必贅述。今天,我想要談一談,Pathways 及其背後的思想,可能會開啟什麼新的紀元?為什麼 Jeff Dean 認為它是下一代的 AI 架構?
1 緣起:Swtich Transformer
事情還是要回到去年1月份。彼時以 GPT-3 為首,預訓練語言模型界颳起了大模型之風。當然,這股風浪到現在也沒有過去,千億級別的大模型,仍然是你方唱罷我登場。而在那個時候,Google 一篇Switch Transformers[3] 引起了我的注意。說來慚愧,當時我注意到這篇工作,還是因為某公眾號提出了「萬億」這一關鍵詞。而彼時由於大模型的風颳了太久,對這種工作我充滿了不屑,且 Google 是出了名的「大力出奇蹟」,我也僅僅是將其當成了卷出新高度的工作,打開看了一眼。
我承認,我被打臉了,Switch Transformers 想要秀出來的,不只是 Google 的廚力有多強,更在於,他們翻出了一個古老而優美的架構——Geoffrey Hinton 於1991年提出的,混合專家模型[4](Mixture Of Experts,下稱 MoE)。
MoE,與我們通常所理解的 DNN模型的很大區別是,其內部不是由一個統一的模型組成,而是由若干個小模型組成,一次計算會使用哪些小模型,由一個稀疏門控系統決定[5]。當時我注意到的是,把大模型變成若干個小模型,技術上的意義則是,計算量會降低,運算效率會變快,自然,模型的總參數量也就可以變得更大。
需要說明的是,在這個時候,我對 MoE 前景的理解是極其淺薄的,那個時候的我根本沒有看到,其後面的巨大價值。
而到了去年10月底,也就是 Pathways 發布臨近,馬後炮地說,我在和同事暢想未來的時候,也提出了類似的設想,並將之放在了我11月的技術分享中,作為「未來篇」的結尾。現在想來,這是一個美好的巧合,從當前 AI 技術的發展步調來看,卻也是一個歷史的必然。
以我老 CS 人的嗅覺,我發現,MoE 的潛在價值在於其工程思想,這一架構,給多任務,乃至多模態提供了一個新的、且我認為更加靠譜的方向。
2 無限統合
首先,既然 MoE 的各個專家由稀疏門控制,則專家之間相互可看作是獨立的。那麼我們就可以做一個非常樸素的猜測,不同的任務,可以由門控系統分配給不同的專家來處理,這樣任務之間就不會有太大的影響。這一點個人認為是比較重要的,因為不同的任務,大概率會有相互之間衝突的地方,雖然大模型可以依靠大規模參數所帶來的記憶能力,緩解這一問題。
通常多任務學習的前提假設是,多個任務之間,是可以互相增益的,其潛在邏輯在於,多個任務所應用到的知識,存在共通的地方。實際上,預訓練模型或預訓練特徵(word2vec等),就是找到一種看上去所有任務都會用到的自監督特徵,使用大量的語料訓練出來,保證覆蓋,使之在遷移學習上成立。而獨立,則可以真正地讓一個系統處理多個任務。
而如我上面所提,那不是就意味著,多個任務之間共通的那部分特徵也就獨立,造成不必要的冗餘了呢?實際上,哪怕只有一個任務輸入到 MoE 系統中,也不可能只激活一個專家,單個任務,也有可能同時激活多個專家,那麼,我們是否可以認為,激活的這多個專家,實際上已經把這個任務給拆解開了呢?理想狀況下,被激活的各個專家各司其職,分別抽取一部分特徵,再通過某種方式結合起來,決定了模型的輸出。
那麼,多任務場景之下,理想狀況下,就可以認為,任務之間共通的知識,由相同的專家學到,而任務之間差異的知識,則由不同的專家捕捉,二者有機結合,形成了一個統合的多任務系統。
說到這,我們就可以把腦洞開的更大一些了,多任務可以解決,多模態能否解決呢?
我認為,Pathways 所代表的思想,是一種更加有力的多模態解決方案。
3 多模態與 Pathways
當前多模態最大的困境是什麼呢?實際上是數據空間無法對齊。以文本與圖片為例,請小夥伴們同我思考,當我說出「一匹馬」的時候,你的腦海中會想像出多少張圖片?
而當我讓你描述這樣一張圖片的時候,你的腦海中又能蹦出多少種描述方式?
我想這兩個問題的答案,都是無限,對吧?這也就意味著,通用意義上,或當任務空間足夠大的時候,圖片和文本數據,是不可能對齊的。數據無法對齊,訓練過程中,多模的知識自然也會趨向過擬合式的綁定,這也就意味著,單個 dense 網絡結構的多模態模型,僅僅可以處理足夠窄場景的多模任務,如某音的短視頻搜索。
而到了 MoE 中,如我前面所說,不需要做數據對齊,同時也沒有直接去硬性組合最終的輸出,而是在中間層的抽象特徵上,做了映射和組合。這樣一種結構,不敢說通用,至少處理更大場景、更多元的多模任務時,看上去更加合理一些。
那麼我們可以大膽設想,預訓練-微調可以是這個樣子的:訓練一個包羅萬象的大模型,由這個大模型,則可以導出各種處理專用任務的小模型,這可能才是有錢有算力的機構的使命所在。由於大模型是保羅萬象的,內部是由多個獨立專家組成的,我們不必再擔心 fine-tuning 會破壞模型原本學到的知識,預訓練階段學到的知識也能夠得到更好的利用。
最後一部分,我想要從另一個角度,談一下為什麼我相信 Pathways。
4 從認知科學的角度
人工智慧研究的目標之一,是真正做出一個強智能,而由於目前,我們能夠參考的唯一一個真正的強智能,只有我們自己,所以接下來,我將以我對人腦粗淺的認識為類比,繼續聊一聊 Pathways。
我們繼續以多模態為例。首先,人處理信息的時候,一定是多模態的,這個已經是一個常識了。所以多模態也一定是 AI 的趨勢。但是,單個 dense 模型的多模態研究,前文已提到,需要的是數據的對齊,而用認知的話來講,則是用一個感知系統去處理多種感知信號(需要說明的是,這裡所說的感知系統與器官不是等同概念)。
是的,人是多模的,但是,人不是這麼處理感知信號的,對於不同形式的感知信號,人是有不同的感知系統對應處理的,而同時又有認知系統進一步處理感知信號,形成我們對世界的認知。
人腦是有多個感知系統的,而感知系統之間,又是相對獨立的,不同的感知系統有可能分布在不同的腦區。同時,去年我關注到畢彥超老師關於知識的雙重編碼理論的工作[6],他們的實驗結論表明,先天盲人也是能夠通過認知系統,學習到「紅色」這一概念的,也就說明了,即使對於顏色的感知系統缺失了,人依舊能夠學會顏色概念。同時,通過核磁共振成像,也可以觀察到,在提到顏色概念時,先天盲人被激活的腦區,和視覺正常的人被激活的腦區,是不一樣的。也就說明,感知系統和認知系統也分布在不同的腦區,且相互獨立。
這種結構,保證了很好的容錯能力。即,人的某一個感知系統出現問題了,一般不會影響到其他的感知系統(雙目失明的人同樣可以聽到聲音,嘗到味道);而某一感知系統缺失,也可以不影響人的認知。
那麼,我們將這些對應到我上文所講到,Pathways 的前景上,是不是可以說,相比於單純的堆砌神經元數量,它和目前認知科學所理解到的,大腦的運行機制,非常像呢?不同的感知系統,對應不同的專家網絡,而從感知到認知,則在系統中作為抽象特徵組合,也由更高層次的專家網絡處理,部分通用的知識,也由認知系統存儲了下來;且不同的模態,或不同的特徵可以預設,增強了整體的容錯能力。從這個角度來看,的確,下一代的智能可能就應該是這個樣子的。
我不敢妄言具象的 Pathways 一定就是未來,從最抽象的意義上講,它提出了一條可行的路徑,或許可以通往智能。
當然,做這個東西的大前提是,有錢……
參考文獻
[1] Chowdhery A, Narang S, Devlin J, et al. PaLM: Scaling Language Modeling with Pathways[J]. arXiv preprint arXiv:2204.02311, 2022.
[2] https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/
[3] Fedus W, Zoph B, Shazeer N. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity[J]. arXiv preprint arXiv:2101.03961, 2021.
[4] Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural computation, 1991, 3(1): 79-87.
[5] Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.
[6] Bi Y. Dual coding of knowledge in the human brain[J]. Trends in Cognitive Sciences, 2021, 25(10): 883-895.
萌屋作者:Severus
Severus,在某廠工作的老程式設計師,主要從事自然語言理解方向,資深死宅,日常憤青,對個人覺得難以理解的同行工作都採取直接吐槽的態度。筆名取自哈利波特系列的斯內普教授,覺得自己也像他那麼自閉、刻薄、陰陽怪氣,也嚮往他為愛而偉大。,