清華大學數學教授談未來趨勢（清華劉知遠大模型）

2023-08-06 06:24:46 1

以下文章來源於智源社區，作者劉知遠

來源：智源社區

作者：劉知遠

整理：李夢佳

大模型的出現迎來了AI研究的新時代，其所帶來的結果提升十分顯著，超越了很多領域中針對研究問題設計特定算法實現的提升。

具體而言，預訓練到Finetune的新範式最本質的特點是統一框架以及統一模型。首先，更加統一的架構，在預訓練出現之前，CNN、RNN、Gate、Attention等在內的算法框架層出不窮。2017年 Transformer出現之後，取代各種流行框架的是一個統一框架。其次，這種統一框架通過預訓練機制帶來了統一的模型，因而我們現在可以用一個統一模型進行微調，使其同時用在非常多的下遊任務上。

那麼，在大模型時代有哪些新問題亟待關注和探索？

由此，我想和大家分享一下十個值得深入探索的問題。希望有更多研究者在大模型時代找到自己的研究方向。

問題如下：

1、理論：大模型的基礎理論是什麼？

2、架構：Transformer是終極框架嗎？

3、能效：如何使大模型更加高效？

4、適配：大模型如何適配到下遊任務？

5、可控性：如何實現大模型的可控生成？

6、安全性：如何改善大模型中的安全倫理問題？

7、認知：如何使大模型獲得高級認知能力？

8、應用：大模型有哪些創新應用？

9、評估：如何評估大模型的性能？

10、易用性：如何降低大模型的使用門檻？

01 理論：大模型的基礎理論是什麼？

首先，我認為在大模型當中第一個非常重要的問題就是它的基礎理論問題。大模型的一個非常重要的特點就是可以利用非常少的下遊任務數據進行相關下遊任務的適配，無論是全量下遊任務的訓練數據還是few-shot learning，甚至zero-shot learning，都能達到相當不錯的效果。同時在預訓練到下遊任務適配過程當中，需要要調整的參數量可以非常少，這兩個特點都是大模型給我們帶來的新現象。

針對這個現象我們有非常多的問題可以去問：

第一，What——大模型到底是什麼？我們應該有什麼樣比較好的數學或者分析工具對大模型進行定量分析或者理論分析，這本身就是一個非常重要的問題。

第二，How——大模型為什麼好？大模型是如何做到這一點的？Pre-training和Fine-tuning是如何關聯在一起的？以及大模型到底學到了什麼？這些是How的問題。

最後，Why——大模型為什麼會學得很好？這方面已經有一些非常重要的研究理論，包括過參數化等理論，但終極理論框架的面紗仍然沒有被揭開。面向這三個方面，即What、How和Why，大模型時代有著非常多值得探索的理論問題。

02 架構：Transformer是終極框架嗎？

第二個問題，目前大模型使用的主流基礎架構，Transformer的提出距離我們已經有5年的時間（2017年提出）。我們看到，隨著模型規模的不斷增長，性能提升也逐漸出現邊際效益遞減的情況，那麼Transformer是不是終極框架呢？有沒有可能會找到比Transformer更好更高效的框架？這也是一個值得探索的問題。

神經網絡本身是受到了神經科學的啟發，我們可以通過其他學科的支持去探索下一代大模型框架。其中來自數學學科的啟發包括，非歐空間Manifold的框架，以及如何將一些幾何先驗放到模型裡，這些都是最近比較新的研究方向。

我們還可以從工程和物理角度去考慮這個問題，比如State Space Model，以及動態系統的角度去考慮等等；第三個方面來自於神經科學，面向類腦最近一直有人在研究Spiking Neural Network，上述這些都是新型架構的前沿研究。到底下一代大模型框架是什麼？還沒有一個標準答案，這本身就是一個亟待探索的問題。

03 能效：如何使大模型更加高效？

第三個問題，大模型的性能問題。隨著大模型越變越大，對計算和存儲成本的消耗自然也越來越大。最近有人提出GreenAI的概念，即需要考慮計算能耗的情況來綜合設計和訓練人工智慧模型。面向這個問題，我們認為，隨著模型變大，AI會越來越需要跟計算機系統進行結合，從而提出一個更高效面向大模型的支持體系。一方面，我們需要去建設更加高效分布式訓練的算法，在這方面國內外都有非常多的相關探索，包括國際上比較有名的DeepSpeed 以及悟道團隊在開發的一些加速算法。

另一個方面，大模型一旦訓練好去使用時，模型的「大」會讓推理過程變得十分緩慢，因此另外一個前沿方向就是如何高效將模型進行儘可能的壓縮，在加速推理的同時保持它的效果。這方面的主要技術路線包括剪枝、蒸餾、量化等等。同時最近我們發現，大模型裡面具有非常強的稀疏發放的現象，這對於模型的高效壓縮和計算有著非常大的幫助，這方面需要一些專門算法的支持。

04 適配：大模型如何適配到下遊任務？

第四個問題，大模型一旦訓好之後如何適配到下遊的任務？模型越大，在已知任務上效果越好，同時也展現出支持未定義過的複雜任務的潛力。同時我們會發現隨著大模型變得越來越大，適配到下遊任務的計算和存儲開銷會顯著增大。大家看我們統計結果從2020年到2021年頂會上的論文，你會發現越來越多的論文在使用預訓練模型，但是真正去使用大模型的論文還是處在非常低的水平。

非常重要的原因就在於即使全世界已經開源了非常多的大模型，但是對於很多研究機構來講，他們其實還是沒有辦法很好把大模型適配到下遊任務上，這方面是大模型一個非常重要的研究前沿，一個非常重要的方向其實就是剛才唐傑老師有提到的Prompt Tuning，通過把下遊任務形式更改成一個跟預訓練過程中所謂masked language model相似的形式，讓適配過程變得更加平滑和容易。

另外非常重要的一個前沿其實就是parameter-effcient learning或者Delta Tuning，基本思想就是只去調整大模型裡非常小的一些參數，從而讓這個模型非常快的適配到下遊任務，會讓適配過程不會變得那麼困難，這方面是我們認為如何去把大模型快速適配到下遊任務的關鍵問題，這是一個非常前沿的方向。剛才唐老師提到，我們其實開源了兩個工具包括OpenPrompt和OpenDelta來支持這個方面的快速研究，也是歡迎大家使用、相關意見和建議甚至可以貢獻。

05 可控性：如何實現大模型的可控生成？

第五個問題，大模型的可控生成。目前大模型已經可以生成一些新的文本或圖像，但如何精確地將我們想要的條件或者約束加入到生成過程中，這是大模型非常重要的研究方向。

這個方向也有很多技術方案，其中包括唐老師提到的思路，把一些prompt加入進來，讓生成的過程接受我們提供的條件。

這方面也有一些開放性問題，比如如何建立一個統一的可控生成框架，如何實現比較好的評測方法，對生成的文本進行概念性甚至事實性的自洽檢測，以及如何針對新的數據進行相關的生成。

06 安全性：如何改善大模型中的安全倫理問題？

第六個問題，現在的大模型本身在安全倫理方面考慮的比較少。實際上會容易出現大模型被攻擊的情況，可能稍微改一改輸入就不work。另外，大模型的使用過程也會存在一定的倫理問題，這些問題都需要我們對大模型進行有針對性的約束。

在這個方面，包括黃民烈老師等團隊也在開展一些工作，我們發現大模型特別容易被有意識地植入一些後門（backdoor），從而讓大模型專門在某些特定場景下做出特定響應，這是非常重要的安全性問題。

另外，此前的研究表明模型越變越大之後，會變得越來越有偏見，越來越不值得被信任，這種信任度降低的趨勢就是我們需要探索的問題。

07 認知：如何使大模型獲得高級認知能力？

第七個問題，人的高級認知能力是否可以讓大模型學到？能不能讓大模型像人一樣完成一些任務？人去完成任務一般會進行幾個方面的工作：一，我們會把這項任務嘗試拆分成若干個簡單任務，第二，針對這些任務去做一些相關信息的獲取，最後我們會進行所謂的高級推理，從而完成更加複雜的任務。

這也是一個非常值得探索的前沿方向，在國際上有WebGPT等方法的嘗試已經開始讓大模型學會使用搜尋引擎等等。我們甚至會問，可不可以讓大模型學會像人一樣網上衝浪，去有針對性地獲取一些相關信息，進而完成任務。

08 應用：大模型有哪些創新應用？

第八個問題，大模型在眾多領域的創新應用。近年來《Nature》封面文章已經出現了五花八門的各種應用，大模型也開始在這當中扮演至關重要的角色。這方面一個耳熟能詳的工作就是AlphaFold，對整個蛋白質結構預測產生了天翻地覆的影響。

未來在這個方向上，關鍵問題就是如何將領域知識加入AI擅長的大規模數據建模以及大模型生成過程中，這是利用大模型進行創新應用的重要命題。

09 評估：如何評估大模型的性能？

第九個問題，大模型建得越來越大，結構種類、數據源種類、訓練目標種類也越來越多，這些模型的性能提升到底有多少？在哪些方面我們仍需努力？有關大模型性能評價的問題，我們需要一個科學的標準去判斷大模型的長處和不足，在這方面智源也有相應的努力，因此我們提出了「智源指數」的概念。

10 易用性：如何降低大模型的使用門檻？

最後，我們認為大模型已經在統一框架和統一模型支持下展現出非常強大的實力，未來有希望廣泛應用在各種各樣的場景中。而為了更廣泛的應用，需要解決的問題是如何降低它的使用門檻。在這方面，我們應該受到歷史上資料庫系統以及大數據分析系統的啟發，需要構建大模型的系統，並在底層相關計算設備、系統的支持、用戶接口以及應用普世性等方面進行統一的考量。