新四季網

谷歌為什麼提供ai技術(谷歌稱之為下一代)

2023-09-16 06:08:50

文 | Severus

大家好,我是 Severus,一個在某廠做語言理解的老程式設計師。

今年清明節,Google 搞了一點小動作,在 arxiv 上放出了自己的新工作,PaLM[1] (PaLM: Scaling Language Modeling with Pathways)。這是自去年,Jeff Dean 談論下一代 AI,提出 Pathways[2] 架構之後,其第一次秀出了自己的成績。既然秀肌肉的一件工作,我們不必懷疑,其在各大不同的基準任務上,能展現出什麼樣的非凡能力。論文發出之後,各家大V迅速跟進,各種解讀鋪天蓋地,關於它是什麼樣子的,它的實現細節,它展現了什麼樣的效果,已不必贅述。今天,我想要談一談,Pathways 及其背後的思想,可能會開啟什麼新的紀元為什麼 Jeff Dean 認為它是下一代的 AI 架構

1 緣起:Swtich Transformer

事情還是要回到去年1月份。彼時以 GPT-3 為首,預訓練語言模型界颳起了大模型之風。當然,這股風浪到現在也沒有過去,千億級別的大模型,仍然是你方唱罷我登場。而在那個時候,Google 一篇Switch Transformers[3] 引起了我的注意。說來慚愧,當時我注意到這篇工作,還是因為某公眾號提出了「萬億」這一關鍵詞。而彼時由於大模型的風颳了太久,對這種工作我充滿了不屑,且 Google 是出了名的「大力出奇蹟」,我也僅僅是將其當成了卷出新高度的工作,打開看了一眼。

我承認,我被打臉了,Switch Transformers 想要秀出來的,不只是 Google 的廚力有多強,更在於,他們翻出了一個古老而優美的架構——Geoffrey Hinton 於1991年提出的,混合專家模型[4](Mixture Of Experts,下稱 MoE)。

MoE,與我們通常所理解的 DNN模型的很大區別是,其內部不是由一個統一的模型組成,而是由若干個小模型組成,一次計算會使用哪些小模型,由一個稀疏門控系統決定[5]。當時我注意到的是,把大模型變成若干個小模型,技術上的意義則是,計算量會降低,運算效率會變快,自然,模型的總參數量也就可以變得更大

需要說明的是,在這個時候,我對 MoE 前景的理解是極其淺薄的,那個時候的我根本沒有看到,其後面的巨大價值。

而到了去年10月底,也就是 Pathways 發布臨近,馬後炮地說,我在和同事暢想未來的時候,也提出了類似的設想,並將之放在了我11月的技術分享中,作為「未來篇」的結尾。現在想來,這是一個美好的巧合,從當前 AI 技術的發展步調來看,卻也是一個歷史的必然。

以我老 CS 人的嗅覺,我發現,MoE 的潛在價值在於其工程思想,這一架構,給多任務,乃至多模態提供了一個新的、且我認為更加靠譜的方向。

2 無限統合

首先,既然 MoE 的各個專家由稀疏門控制,則專家之間相互可看作是獨立的。那麼我們就可以做一個非常樸素的猜測,不同的任務,可以由門控系統分配給不同的專家來處理,這樣任務之間就不會有太大的影響。這一點個人認為是比較重要的,因為不同的任務,大概率會有相互之間衝突的地方,雖然大模型可以依靠大規模參數所帶來的記憶能力,緩解這一問題。

通常多任務學習的前提假設是,多個任務之間,是可以互相增益的,其潛在邏輯在於,多個任務所應用到的知識,存在共通的地方。實際上,預訓練模型或預訓練特徵(word2vec等),就是找到一種看上去所有任務都會用到的自監督特徵,使用大量的語料訓練出來,保證覆蓋,使之在遷移學習上成立。

而獨立,則可以真正地讓一個系統處理多個任務。

而如我上面所提,那不是就意味著,多個任務之間共通的那部分特徵也就獨立,造成不必要的冗餘了呢?實際上,哪怕只有一個任務輸入到 MoE 系統中,也不可能只激活一個專家,單個任務,也有可能同時激活多個專家,那麼,我們是否可以認為,激活的這多個專家,實際上已經把這個任務給拆解開了呢?理想狀況下,被激活的各個專家各司其職,分別抽取一部分特徵,再通過某種方式結合起來,決定了模型的輸出。

那麼,多任務場景之下,理想狀況下,就可以認為,任務之間共通的知識,由相同的專家學到,而任務之間差異的知識,則由不同的專家捕捉,二者有機結合,形成了一個統合的多任務系統。

說到這,我們就可以把腦洞開的更大一些了,多任務可以解決,多模態能否解決呢?

我認為,Pathways 所代表的思想,是一種更加有力的多模態解決方案。

3 多模態與 Pathways

當前多模態最大的困境是什麼呢?實際上是數據空間無法對齊。以文本與圖片為例,請小夥伴們同我思考,當我說出「一匹馬」的時候,你的腦海中會想像出多少張圖片?

而當我讓你描述這樣一張圖片的時候,你的腦海中又能蹦出多少種描述方式?

我想這兩個問題的答案,都是無限,對吧?這也就意味著,通用意義上,或當任務空間足夠大的時候,圖片和文本數據,是不可能對齊的。數據無法對齊,訓練過程中,多模的知識自然也會趨向過擬合式的綁定,這也就意味著,單個 dense 網絡結構的多模態模型,僅僅可以處理足夠窄場景的多模任務,如某音的短視頻搜索。

而到了 MoE 中,如我前面所說,不需要做數據對齊,同時也沒有直接去硬性組合最終的輸出,而是在中間層的抽象特徵上,做了映射和組合。這樣一種結構,不敢說通用,至少處理更大場景、更多元的多模任務時,看上去更加合理一些。

那麼我們可以大膽設想,預訓練-微調可以是這個樣子的:訓練一個包羅萬象的大模型,由這個大模型,則可以導出各種處理專用任務的小模型,這可能才是有錢有算力的機構的使命所在。由於大模型是保羅萬象的,內部是由多個獨立專家組成的,我們不必再擔心 fine-tuning 會破壞模型原本學到的知識,預訓練階段學到的知識也能夠得到更好的利用。

最後一部分,我想要從另一個角度,談一下為什麼我相信 Pathways。

4 從認知科學的角度

人工智慧研究的目標之一,是真正做出一個強智能,而由於目前,我們能夠參考的唯一一個真正的強智能,只有我們自己,所以接下來,我將以我對人腦粗淺的認識為類比,繼續聊一聊 Pathways。

我們繼續以多模態為例。首先,人處理信息的時候,一定是多模態的,這個已經是一個常識了。所以多模態也一定是 AI 的趨勢。但是,單個 dense 模型的多模態研究,前文已提到,需要的是數據的對齊,而用認知的話來講,則是用一個感知系統去處理多種感知信號(需要說明的是,這裡所說的感知系統與器官不是等同概念)。

是的,人是多模的,但是,人不是這麼處理感知信號的,對於不同形式的感知信號,人是有不同的感知系統對應處理的,而同時又有認知系統進一步處理感知信號,形成我們對世界的認知。

人腦是有多個感知系統的,而感知系統之間,又是相對獨立的,不同的感知系統有可能分布在不同的腦區。同時,去年我關注到畢彥超老師關於知識的雙重編碼理論的工作[6],他們的實驗結論表明,先天盲人也是能夠通過認知系統,學習到「紅色」這一概念的,也就說明了,即使對於顏色的感知系統缺失了,人依舊能夠學會顏色概念。同時,通過核磁共振成像,也可以觀察到,在提到顏色概念時,先天盲人被激活的腦區,和視覺正常的人被激活的腦區,是不一樣的。也就說明,感知系統和認知系統也分布在不同的腦區,且相互獨立。

這種結構,保證了很好的容錯能力。即,人的某一個感知系統出現問題了,一般不會影響到其他的感知系統(雙目失明的人同樣可以聽到聲音,嘗到味道);而某一感知系統缺失,也可以不影響人的認知。

那麼,我們將這些對應到我上文所講到,Pathways 的前景上,是不是可以說,相比於單純的堆砌神經元數量,它和目前認知科學所理解到的,大腦的運行機制,非常像呢?不同的感知系統,對應不同的專家網絡,而從感知到認知,則在系統中作為抽象特徵組合,也由更高層次的專家網絡處理,部分通用的知識,也由認知系統存儲了下來;且不同的模態,或不同的特徵可以預設,增強了整體的容錯能力。從這個角度來看,的確,下一代的智能可能就應該是這個樣子的。

我不敢妄言具象的 Pathways 一定就是未來,從最抽象的意義上講,它提出了一條可行的路徑,或許可以通往智能。

當然,做這個東西的大前提是,有錢……

參考文獻

[1] Chowdhery A, Narang S, Devlin J, et al. PaLM: Scaling Language Modeling with Pathways[J]. arXiv preprint arXiv:2204.02311, 2022.

[2] https://blog.google/technology/ai/introducing-pathways-next-generation-ai-architecture/

[3] Fedus W, Zoph B, Shazeer N. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity[J]. arXiv preprint arXiv:2101.03961, 2021.

[4] Jacobs R A, Jordan M I, Nowlan S J, et al. Adaptive mixtures of local experts[J]. Neural computation, 1991, 3(1): 79-87.

[5] Shazeer N, Mirhoseini A, Maziarz K, et al. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer[J]. arXiv preprint arXiv:1701.06538, 2017.

[6] Bi Y. Dual coding of knowledge in the human brain[J]. Trends in Cognitive Sciences, 2021, 25(10): 883-895.

萌屋作者:Severus

Severus,在某廠工作的老程式設計師,主要從事自然語言理解方向,資深死宅,日常憤青,對個人覺得難以理解的同行工作都採取直接吐槽的態度。筆名取自哈利波特系列的斯內普教授,覺得自己也像他那麼自閉、刻薄、陰陽怪氣,也嚮往他為愛而偉大。

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了