微軟公司ai項目簡介（微軟CTO明年是）

2023-04-22 18:00:41 5

作者 | 褚杏娟

「對於人工智慧，2022 年是有史以來最激動人心的一年。」微軟首席技術官 Scott Stein 在近日的分享中說道，但他還自信地表示，「2023 年將是 AI 社區有史以來最激動人心的一年。」

值得關注的是，微軟是 OpenAI 的主要投資者，而 OpenAI 最近 GPT-3.5 系列主力模型之一的ChatGPT 爆火，Stein 的這次發言也牽動了網友敏感的神經：GPT-4 要來了？

生成預訓練 transformer（Generative Pre-trained Transformer，簡稱 GPT）是一種可利用網際網路數據進行訓練的文本生成深度學習模型，在問答、文本摘要、機器翻譯、分類、代碼生成和對話式 AI 領域都有相當出色的表現。

2022 年 7 月，OpenAI 發布了最先進的文本轉圖像模型 DALLE2。就在幾周之後，Stability.AI 推出了 DALLE-2 的開源版本，名為 Stable Diffusion。兩款模型在亮相後均大受好評，也在質量和理解文字描述的能力上展現出可喜的成果。最近，OpenAI 又推出名為 Whisper 的自動語音識別（ASR）模型，帶來了優於原有同類模型的穩健性和準確度。

從過往趨勢來看，OpenAI 在接下來幾個月內推出 GPT-4 的概率很大。市場對大語言模型有著相當迫切的需求，GPT-3 的流行已經證明大家願意接受 GPT-4，同時也對它的準確性、計算優化、更低偏差和更高安全性充滿了期待。

GPT 不出，AI 萬古如長夜

在 GPT-1 之前，大多數自然語言處理（NLP）主要針對分類和翻譯等特定任務進行訓練，使用的也均為監督學習方法。這類學習方法有兩個問題：過度依賴注釋數據，而且無法實現任務泛化。

GPT-1（1.17 億參數）相關論文《Improving Language Understanding by Generative Pre-Training》發表於 2018 年，其中提出了一種生成語言模型，能夠使用未標記數據進行訓練，並在分類和情感分析等特定下遊任務上進行微調。

GPT-2（15 億參數）論文《Language Models are Unsupervised Multitask Learners》發表於 2019 年，其中使用的參數更多、訓練數據集也更大，語言模型自然進一步提升。GPT-2 使用任務調節、零樣本學習和零樣本任務轉換等方式提高了模型性能。

GPT-3（1750 億參數）論文《Language Models are Few-Shot Learners》發表於 2020 年，其模型參數達到了 GPT-2 的 100 倍，使用的訓練數據集更大，因此能在下遊任務上取得更好的效果。

GPT-3 在故事寫作、SQL 查詢、Python 腳本、語言翻譯和摘要編寫等能力上幾乎能夠與人比肩，效果驚豔全球 AI 界。如此出色的表現，離不開其中的上下文學習、少樣本、單樣本及零樣本等技術設置。

GPT-4 可能是什麼樣子

在最近的活動中，OpenAI CEO Sam Altman 證實了 GPT-4 模型的發布傳聞。下面是國外數據培訓企業 DataCamp 對 GPT-4 模型大小、參數水平以及計算、多模、稀疏性及性能等方面的預測。

模型大小

根據 Altman 的介紹，GPT-4 並不會比 GPT-3 大太多。因此，預計其參數大約在 1750 億到 2800 億之間，跟 DeepMind 那邊的語言模型 Gopher 基本相當。

塊頭更大的 Megatron NLG 是 GPT-3 的三倍，參數達 5300 億，但性能並沒有更好。緊隨其後的稍小版本反而性能更優，所以單純堆體量明顯不足以讓性能更上一層樓。

Altman 表示，他們正努力讓更小的模型獲得更佳性能。大語言模型需要龐大的數據集、海量算力和更複雜的實現。對於多數企業來說，不要說訓練，這類大模型就算部署起來都困難重重。

最優參數化

大模型的優化水平往往不高，為了有效控制模型訓練成本，企業必須在準確性和成本之間做出權衡。例如雖然還能改進，但 GPT-3 確實只訓練過一次。由於無法承受成本，研究人員根本沒辦法進一步做超參數優化。

微軟和 OpenAI 已經證明，如果用最佳超參數對 GPT-3 進行訓練，該模型還有繼續改進的空間。在調查結果中，他們發現經過超參數優化的 67 億參數 GPT-3 模型與 130 億參數 GPT-3 模型的性能基本一致。

他們還發現了新的參數化方法（μP），即較小模型的最佳超參數與相同架構的較大模型的最佳超參數相同。如此一來，研究人員就能以更低的成本實現大模型優化。

最優計算

DeepMind 最近發現，訓練令牌的數量對模型性能的影響也很大，甚至不亞於模型大小。自 GPT-3 面世以來，他們一直在訓練具有 700 億參數的 Chinchilla 模型並證明了這一結論。該模型只相當於 Gopher 的四分之一，但使用的訓練數據反而是後者的四倍。

所以我們基本可以假設，要實現模型最優計算，OpenAI 會額外再加 5 萬億個訓練令牌。就是說要想將性能損失控制在最低，GPT-4 的模型訓練算力將達到 GPT-3 的 10 到 20 倍。

GPT-4 將是一套純文本模型

在問答當中，Altman 表示 GPT-4 不會是像 DALL-E 那樣的多模模型，而是純文本模型。

為什麼這樣說？與純語言或純視覺相比，多模模型的質量往往難以控制。將文本和視覺信息結合起來本身就是個大挑戰，導致多模模型需要身兼 GPT-3 和 DALL-E 2 的雙邊優勢，這顯然很不現實。所以，GPT-4 應該不會出現什麼花哨的新功能。

稀疏性

稀疏模型使用條件計算來降低計算成本。這類模型可以輕鬆擴展至超過 1 萬億參數，仍不會產生高昂的計算成本。稀疏模型能幫助我們用較低的資源訓練出大語言模型。

但 GPT-4 應該不會是稀疏模型。為什麼？因為 OpenAI 長期以來只研究密集語言模型，所以不太可能犧牲體積換取算力節約。

AI 對齊

考慮到 OpenAI 一直在努力解決 AI 對齊問題，所以 GPT-4 的表現應該會比 GPT-3 更好。OpenAI 希望語言模型能延伸我們的認知、堅守人類的價值觀，並為此訓練出了 InstructGPT。作為 GPT-3 的變體模型，其根據人類反饋接受了訓練以確保遵循指令。有專家認為，該模型在多種語言基準上的表現均優於 GPT-3。

目前，GPT-4 的發布日期仍未確定。所以我們可能要到明年才能見其真容，也可能在下個月就迎來驚喜。但唯一可以肯定的是，下個版本一定能解決舊版本的某些問題，並帶來更好的性能表現。

當然，目前已經出現了不少關於 GPT-4 且自相矛盾的傳聞。比如說它有 100 萬億個參數，而且專門用於生成編程代碼。但這些都是純猜測，沒有任何根據。我們不清楚的情況還有很多，畢竟 OpenAI 沒有公布關於其發布日期、模型架構、大小和訓練數據集的任何消息。

結束語

AI 模型開發領域，經歷了預訓練模型-大規模預訓練模型-超大規模預訓練模型的演進。Google 發布的 Bert 模型即是自然語言處理領域最為典型的預訓練模型。OpenAI 則提出了 GPT 模型，尤其是 2020 年發布的 GPT-3 模型參數量達到 1750 億，其在全球掀起大模型的浪潮。

根據 IDC 觀察，國內大力投入大模型研發和落地的以大型雲廠商為主。例如百度智能雲推出了「文心大模型」，包括了 NLP 大模型、CV 大模型以及跨模態大模型等 36 個大模型；阿里達摩院則推出「通義大模型」系列，以 M6 大模型為底座，發布 Alice 一系列模型合集；華為則從框架層、算力層以及軟體層面全面發力大模型，既有內部自主研發的盤古大模型，也開放華為昇思 MindSpore 框架支持業界進行大模型的訓練。

隨著市場對於大模型的認知逐漸理性和落地，使用大模型的價值也開始凸顯，如不要求企業具備海量的數據基礎、應用大模型的效果更優、降低 AI 開發門檻等。很多 AI 先行者已經在成熟度較高的場景中引入了大模型。

大模型為人工智慧未來發展帶來了全新的可能，未來將如何迸發出新的可能，我們拭目以待。

參考連結：

https://www.datacamp.com/blog/what-we-know-gpt4

https://the-decoder.com/microsoft-cto-scott-stein-predicts-most-exciting-2023-for-ai-with-gpt-4-on-the-horizon/

https://www.idc.com/getdoc.jsp?containerId=prCHC49424422