新四季網

微軟公司ai項目簡介(微軟CTO明年是)

2023-04-22 18:00:41 2

作者 | 褚杏娟

「對於人工智慧,2022 年是有史以來最激動人心的一年。」微軟首席技術官 Scott Stein 在近日的分享中說道,但他還自信地表示,「2023 年將是 AI 社區有史以來最激動人心的一年。」

值得關注的是,微軟是 OpenAI 的主要投資者,而 OpenAI 最近 GPT-3.5 系列主力模型之一的ChatGPT 爆火,Stein 的這次發言也牽動了網友敏感的神經:GPT-4 要來了?

生成預訓練 transformer(Generative Pre-trained Transformer,簡稱 GPT)是一種可利用網際網路數據進行訓練的文本生成深度學習模型,在問答、文本摘要、機器翻譯、分類、代碼生成和對話式 AI 領域都有相當出色的表現。

2022 年 7 月,OpenAI 發布了最先進的文本轉圖像模型 DALLE2。就在幾周之後,Stability.AI 推出了 DALLE-2 的開源版本,名為 Stable Diffusion。兩款模型在亮相後均大受好評,也在質量和理解文字描述的能力上展現出可喜的成果。最近,OpenAI 又推出名為 Whisper 的自動語音識別(ASR)模型,帶來了優於原有同類模型的穩健性和準確度。

從過往趨勢來看,OpenAI 在接下來幾個月內推出 GPT-4 的概率很大。市場對大語言模型有著相當迫切的需求,GPT-3 的流行已經證明大家願意接受 GPT-4,同時也對它的準確性、計算優化、更低偏差和更高安全性充滿了期待。

GPT 不出,AI 萬古如長夜

在 GPT-1 之前,大多數自然語言處理(NLP)主要針對分類和翻譯等特定任務進行訓練,使用的也均為監督學習方法。這類學習方法有兩個問題:過度依賴注釋數據,而且無法實現任務泛化。

GPT-1(1.17 億參數)相關論文《Improving Language Understanding by Generative Pre-Training》發表於 2018 年,其中提出了一種生成語言模型,能夠使用未標記數據進行訓練,並在分類和情感分析等特定下遊任務上進行微調。

GPT-2(15 億參數)論文《Language Models are Unsupervised Multitask Learners》發表於 2019 年,其中使用的參數更多、訓練數據集也更大,語言模型自然進一步提升。GPT-2 使用任務調節、零樣本學習和零樣本任務轉換等方式提高了模型性能。

GPT-3(1750 億參數)論文《Language Models are Few-Shot Learners》發表於 2020 年,其模型參數達到了 GPT-2 的 100 倍,使用的訓練數據集更大,因此能在下遊任務上取得更好的效果。

GPT-3 在故事寫作、SQL 查詢、Python 腳本、語言翻譯和摘要編寫等能力上幾乎能夠與人比肩,效果驚豔全球 AI 界。如此出色的表現,離不開其中的上下文學習、少樣本、單樣本及零樣本等技術設置。

GPT-4 可能是什麼樣子

在最近的活動中,OpenAI CEO Sam Altman 證實了 GPT-4 模型的發布傳聞。下面是國外數據培訓企業 DataCamp 對 GPT-4 模型大小、參數水平以及計算、多模、稀疏性及性能等方面的預測。

模型大小

根據 Altman 的介紹,GPT-4 並不會比 GPT-3 大太多。因此,預計其參數大約在 1750 億到 2800 億之間,跟 DeepMind 那邊的語言模型 Gopher 基本相當。

塊頭更大的 Megatron NLG 是 GPT-3 的三倍,參數達 5300 億,但性能並沒有更好。緊隨其後的稍小版本反而性能更優,所以單純堆體量明顯不足以讓性能更上一層樓。

Altman 表示,他們正努力讓更小的模型獲得更佳性能。大語言模型需要龐大的數據集、海量算力和更複雜的實現。對於多數企業來說,不要說訓練,這類大模型就算部署起來都困難重重。

最優參數化

大模型的優化水平往往不高,為了有效控制模型訓練成本,企業必須在準確性和成本之間做出權衡。例如雖然還能改進,但 GPT-3 確實只訓練過一次。由於無法承受成本,研究人員根本沒辦法進一步做超參數優化。

微軟和 OpenAI 已經證明,如果用最佳超參數對 GPT-3 進行訓練,該模型還有繼續改進的空間。在調查結果中,他們發現經過超參數優化的 67 億參數 GPT-3 模型與 130 億參數 GPT-3 模型的性能基本一致。

他們還發現了新的參數化方法(μP),即較小模型的最佳超參數與相同架構的較大模型的最佳超參數相同。如此一來,研究人員就能以更低的成本實現大模型優化。

最優計算

DeepMind 最近發現,訓練令牌的數量對模型性能的影響也很大,甚至不亞於模型大小。自 GPT-3 面世以來,他們一直在訓練具有 700 億參數的 Chinchilla 模型並證明了這一結論。該模型只相當於 Gopher 的四分之一,但使用的訓練數據反而是後者的四倍。

所以我們基本可以假設,要實現模型最優計算,OpenAI 會額外再加 5 萬億個訓練令牌。就是說要想將性能損失控制在最低,GPT-4 的模型訓練算力將達到 GPT-3 的 10 到 20 倍。

GPT-4 將是一套純文本模型

在問答當中,Altman 表示 GPT-4 不會是像 DALL-E 那樣的多模模型,而是純文本模型。

為什麼這樣說?與純語言或純視覺相比,多模模型的質量往往難以控制。將文本和視覺信息結合起來本身就是個大挑戰,導致多模模型需要身兼 GPT-3 和 DALL-E 2 的雙邊優勢,這顯然很不現實。所以,GPT-4 應該不會出現什麼花哨的新功能。

稀疏性

稀疏模型使用條件計算來降低計算成本。這類模型可以輕鬆擴展至超過 1 萬億參數,仍不會產生高昂的計算成本。稀疏模型能幫助我們用較低的資源訓練出大語言模型。

但 GPT-4 應該不會是稀疏模型。為什麼?因為 OpenAI 長期以來只研究密集語言模型,所以不太可能犧牲體積換取算力節約。

AI 對齊

考慮到 OpenAI 一直在努力解決 AI 對齊問題,所以 GPT-4 的表現應該會比 GPT-3 更好。OpenAI 希望語言模型能延伸我們的認知、堅守人類的價值觀,並為此訓練出了 InstructGPT。作為 GPT-3 的變體模型,其根據人類反饋接受了訓練以確保遵循指令。有專家認為,該模型在多種語言基準上的表現均優於 GPT-3。

目前,GPT-4 的發布日期仍未確定。所以我們可能要到明年才能見其真容,也可能在下個月就迎來驚喜。但唯一可以肯定的是,下個版本一定能解決舊版本的某些問題,並帶來更好的性能表現。

當然,目前已經出現了不少關於 GPT-4 且自相矛盾的傳聞。比如說它有 100 萬億個參數,而且專門用於生成編程代碼。但這些都是純猜測,沒有任何根據。我們不清楚的情況還有很多,畢竟 OpenAI 沒有公布關於其發布日期、模型架構、大小和訓練數據集的任何消息。

結束語

AI 模型開發領域,經歷了預訓練模型-大規模預訓練模型-超大規模預訓練模型的演進。Google 發布的 Bert 模型即是自然語言處理領域最為典型的預訓練模型。OpenAI 則提出了 GPT 模型,尤其是 2020 年發布的 GPT-3 模型參數量達到 1750 億,其在全球掀起大模型的浪潮。

根據 IDC 觀察,國內大力投入大模型研發和落地的以大型雲廠商為主。例如百度智能雲推出了「文心大模型」,包括了 NLP 大模型、CV 大模型以及跨模態大模型等 36 個大模型;阿里達摩院則推出「通義大模型」系列,以 M6 大模型為底座,發布 Alice 一系列模型合集;華為則從框架層、算力層以及軟體層面全面發力大模型,既有內部自主研發的盤古大模型,也開放華為昇思 MindSpore 框架支持業界進行大模型的訓練。

隨著市場對於大模型的認知逐漸理性和落地,使用大模型的價值也開始凸顯,如不要求企業具備海量的數據基礎、應用大模型的效果更優、降低 AI 開發門檻等。很多 AI 先行者已經在成熟度較高的場景中引入了大模型。

大模型為人工智慧未來發展帶來了全新的可能,未來將如何迸發出新的可能,我們拭目以待。

參考連結:

https://www.datacamp.com/blog/what-we-know-gpt4

https://the-decoder.com/microsoft-cto-scott-stein-predicts-most-exciting-2023-for-ai-with-gpt-4-on-the-horizon/

https://www.idc.com/getdoc.jsp?containerId=prCHC49424422

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了