2019年機器學習和人工智慧的關鍵趨勢展望
2023-03-31 16:40:28 1
離2018年結束還有9天,著名的數據科學網站KDnuggets邀請了11位國外機器學習和人工智慧專家來回顧2018年機器學習和人工智慧的主要進展,並展望2019年將出現的主要趨勢。
雖然沒有像吳恩達、李飛飛這樣的頂級咖啡館,但是這11個人都站在工業、學術和技術的前沿。他們包括英偉達的機器學習研究主任、加特納的機器學習小組負責人、華盛頓大學的計算機科學與工程教授。他們可以從不同的角度觀察人工智慧的過去和未來。
回首2018年:研究的焦點已經從標準的監督學習轉移到更具挑戰性的機器學習問題,如半監督學習、領域適應、主動學習和生成模型。GAN仍然非常流行,研究人員正在嘗試更困難的任務,如bigGAN和視頻-視頻合成。ve生成模型(如神經渲染模型)是在單個網絡中結合生成和預測來輔助半監督學習的。
研究人員已經將深度學習的應用擴展到許多科學領域,如地震預測、材料科學、蛋白質工程、高能物理和控制系統,在這種情況下,領域知識和約束與學習相結合。
我們將看到新的領域自適應技術的發展,以無縫地將知識從仿真轉移到現實世界。使用仿真將有助於我們克服數據稀缺性,加速學習新的領域和問題。將人工智慧從仿真變成真實數據(Sim2real)將對機器人學、自動駕駛儀、醫學產生重大影響。仿真是解決諸如自動駕駛儀等安全關鍵應用中所有可能出現的情況的好方法。構建在複雜仿真器中的知識將以新的方式用於增強人工智慧的物理意識和強大,並且可以擴展到新的和不可見的場景。
這是我自己作為從業者的觀點,並不代表Gartner基於研究的官方聲明。
回首2018年:學術界的TensorFlow輸給了PyTorch。有時Google的巨大影響力可能會把市場推向次優方向,因為MapReduce和隨後的Hadoop狂熱已經發生了。
深假(和類似的聲音技術)粉碎了最可信賴的信息來源:視頻。沒有人敢再說一遍:我看到那個人說這些話的視頻。幾十年前,我們不再相信印刷,但直到現在,視頻仍然是不可動搖的。
對於Google來說,取代人們打電話給餐館,假裝自己是一個真正的人類系統是一個裡程碑。然而,它卻引發了許多關於道德和人工智慧的問題。
個人助理和聊天機器人很快就達到了他們的極限。他們比以往任何時候都好,但不如去年的預期。
1)我希望每個人都對今年的AutoML承諾感到興奮。我也希望它失敗(除了一些非常具體且定義明確的情況,例如不依賴於手動圖像識別、機器翻譯和文本分類,其中原始數據作為輸入接近機器的期望,並且數據是豐富的)。
2)營銷自動化:利用成熟的代際對抗網絡和可變的自動編碼器,可以生成成千上萬張同一人或同一張圖像的圖像,並且這些圖像之間的面部表情或情感差異很小。GN。
據一些媒體甚至一些研究人員稱,由於劍橋分析,川普贏得了2016年的選舉,機器學習算法充滿了偏見和歧視,機器人正在取代我們的工作,並將很快接管我們的生活,等等。聯合國正在就AI武器禁令等問題展開激烈的辯論。公眾對人工智慧的看法越來越模糊,這是危險和不公平的。
2018年,一些趨勢開始迅速流行。一個是自動機器學習,另一個是強化學習。這兩種新趨勢將在2019年進一步發展。作為我在牛津大學物聯網中數據科學教學內容的一部分,我認為物聯網將日益融入大型生態學。諸如自動駕駛汽車、機器人和智能城市等系統。
到2019年,一種新的機器人技術,即合作機器人(cobots),將成為一個關鍵趨勢。與以前的生產線機器人不同,新的機器人將能夠獨立移動和理解情緒(在我的課程中,我們還與情緒研究實驗室在這個領域合作)。
我的最後一點可能有爭議:在2019年,數據科學家的角色將從研究轉向產品開發。我認為人工智慧與下一代數據產品的誕生密切相關。數據科學家的角色將相應地改變。
我們在2018年目睹的一個變化是開源工具數量的增加,這些工具降低了AI的技術障礙,使每個人都更容易訪問AI,並加強了不同組織之間的協作。
同樣,在2019年,我們將看到關注人工智慧的公司數量增加。Google和微軟最近推出了旨在讓人工智慧為社會服務的項目,隨著全社會為企業提出了更高的社會目標,這種將人工智慧技術轉化為對社會有積極影響的趨勢正得到越來越多的支持和動機。
首先,我想提一下,我的觀點可能會惹惱一些人,但我認為這是對2018年的合理解釋:最大的進步是沒有進步!
BigGAN是一個GAN,只是更大。GANS的逐漸發展產生了非常有趣的結果,但是從某種意義上說,它已經邁出了一大步。
在NLP中,今年最重要的故事是ELMO和BERT的情景嵌入。這些絕對是驚人的進步。
但至少戴安德魯(AndrewDai)和QuocLe(QuocLe)自2015年或2016年起就開始訓練語言模型,並對下遊的分類任務進行了微調,儘管規模較小。所以我認為今年沒有什麼大想法。
雖然沒有什麼好主意,但是今年還是有積極的一面。也許我們沒有充分利用現有的技術。硬體、系統和工具的快速發展可能導致第二次飛躍。
在我看來,深層學習理論正在湧現出許多新思想,許多研究者,包括桑傑夫·阿羅拉、馬騰宇、丹尼爾·索德、納蒂·斯雷布羅等,正在做一些非常令人興奮的工作。
現在有一種新的探究模式,它把理論與實驗更緊密地結合起來。你開始看到受實驗啟發的理論論文,實驗的理論論文。
最近,我從一個鼓舞人心的經歷中學習到,我們可以從以前從未見過的理論論文中得到自然現象。
我認為,在2019年及以後,應用機器學習將會有良好的發展,我們渴望進入所有這些聲稱解決問題的實踐領域。但是到目前為止,我們唯一可以依賴的是監督學習。
目前,模式匹配仍然受到一些困難問題的限制。受監督的模型可以找到關聯,但是它們不能找到原因。我們不知道哪些信息可以安全地依賴於,因為它們可能隨著時間而改變。這些模型沒有告訴我們幹預將產生什麼影響。
我認為,在明年,我們將看到更多的情況,其中機器學習項目被放棄,或他們陷入麻煩,因為黑箱性質。
我們將看到社會上最有創造力的成員做出一些改變。與其盲目地列清單,不如多注意填補代表性學習和因果推理之間的空白。
對於我來說,2018年的機器學習很複雜。例如,由於ULMFiT等用於文本分類的技術和來自轉換器的BERT技術,轉移學習得到了廣泛的應用和興趣,尤其是在自然語言處理方面。
這些並不是NLP在過去一年中的唯一進步;需要注意的是語言模型嵌入(ELMo),一種深度上下文化的詞表示模型,它在模型的每個任務上都做了相當大的改進。
今年的其他突破似乎集中在對現有技術的改進,如BigGAN。此外,由於許多倡導團體成員的聲音,關於機器學習的包容性和多樣性的非技術討論已經成為主流(NeurIPS就是一個例子)。
我相信到2019年,隨著這些領域的潛在應用日益得到重視,研究重點將從監督學習轉向強化學習和半監督學習。前機器應用學習。
作為業餘自動機器學習(AutoML)的傳播者,我相信AutoML會逐步改進,以便實現常見的有監督的學習任務,這些任務可以自信地選擇算法,並通過可用或不完整的方法來優化超級參數。
我認為自動化機器學習的一般觀點將會改變(或者已經達到一個臨界點):從改變開發人員到擴展他們。AutoML將不再被視為機器學習工具箱的替代品,而是作為機器學習工具箱中包含的另一個工具。每天使用工具並知道如何操作。
2018年的一個重要趨勢是數據科學教育機會的增多和成熟,在線課程已經成為數據科學教育的原始場所。這些課程在各級都很受歡迎,每年都有更多的學生、發展和新的主題。
在學術界,新的數據科學碩士課程正以每年十幾門左右的速度增長。我們的大學正在響應公司和學生的要求,為數據相關領域提供具體計劃。
在2019年及以後,數據科學學術計劃將更一般地幫助人們學習基本技能,以實現第一批數據科學工作。這是一件好事。獲得認證的機構將填補這一領域的長期空缺。
到目前為止,數據科學資格在很大程度上可以充實以前的工作經驗。這就產生了一個第22條。新數據科學家不能證明他們的資格,因為他們從來沒有數據科學經驗,而惡性循環是這些人不能得到工作,因為他們不能證明他們的資格。教育機構證書是打破這種循環的重要途徑。
但是網上課程並非無處不在,因為很多人無法保證大學教育所需的時間和經濟性。
現在這些課程已經出現,數據科學教育將總是有實用的方法。通過項目工作的經驗和在線培訓,新的數據科學家有機會展示他們的技能,即使沒有學位。在線課程和課程將繼續變得更加普遍和複雜,並且對於數據科學更加重要。CE教育。
事實上,一些著名的數據科學和機器學習項目已經將相關課程上傳到網際網路上,甚至為非預科生提供入學選擇。我預計,大學數據科學學位與在線培訓課程之間的界限將進一步模糊。
首先,歐盟頒布了《全球數據保護條例》(GDPR),旨在提高個人數據使用的公平性和透明度。該條例賦予個人控制個人數據和知道如何使用個人數據的權利,但同時也引起了法律解釋上的混亂。GDPR的結果是許多公司對數據處理做了一些膚淺的改變,認為自己很順從,忽略了重新設計數據存儲和處理基礎設施的基本需要。
其次,劍橋分析醜聞給整個數據科學界蒙上了一層陰影。如果之前的辯論集中在確保人工智慧和ML產品的公平性上,那麼這個醜聞就提出了更深層次的道德問題。Facebook參與這一事件的最新調查表明,這些問題不會很快消失。成熟了,這在許多行業都會發生,不只是在政治領域。有些案例甚至更悲慘,比如亞利桑那州的Uber自動駕駛汽車案,它將引發強烈的公眾反應。技術是力量,權力是責任。
最後,更積極的是,亞馬遜最新自主開發的伺服器處理器晶片意味著普通人訪問雲計算將不再是一個成本問題。
對於ML、AI和數據科學從業者來說,2019年的主要趨勢是遵循已建立的軟體開發實踐的日益增長的責任,特別是在測試和維護方面。專有軟體的意圖將應用於我們建立的模型和解決方案。這意味著最好的軟體開發實踐將支持我們需要遵循的機器學習規則。
反烏託邦的濫用人工智慧,包括由仇恨團體和獨裁者監視和操縱,正受到越來越多的關注。
遷移學習是將預訓練模型應用於新的數據集的實踐,遷移學習是計算機視覺爆炸式發展的關鍵因素。在2018年,它成功地應用於NLP,包括快速ULMFiT。AI和SebastianRuder,Allen研究所的ELMo,OpenAItransformer和Google的BERT。這些進展令人興奮和擔憂。
諸如Facebook在緬甸種族滅絕中的決定性作用、YouTube對陰謀論的不成比例的推薦(其中許多是宣揚白人至上的)以及AI在政府和執法監督中的運用,這些持續存在的問題在2018年引起了主流媒體的日益關注。好在越來越多的人開始意識到這一點,並且越來越多的人開始反擊。
我預計,隨著全國人民黨(正如塞巴斯蒂安·魯德(SebastianRuder)的迅速發展,全國人民黨(NLP)的ImageNet時代已經到來)以及更多反烏託邦的發展,這些趨勢將在2019年繼續,包括如何使用技術監測、煽動暴力和操縱危險的政治運動。
第一次是在三月份。艾倫人工智慧研究所和華盛頓大學的研究人員發表了深度上下文化詞語演示,提出了ELMo(從語言模型嵌入),一種開放源碼的深度上下文化詞彙表示,可以改進無上下文嵌入,如Word2vec或Gl。通過簡單地替換ELMo預訓練模型中的向量,證明了現有NLP系統的改進。
第二個是在11月。Google有開源的BERT(Transformers的雙向編碼器表示),一種在維基百科語料庫上預先訓練的雙向無監督語言表示。正如作者在n種不同的NLP基準,甚至比ELMo更強。
從智能揚聲器的迅速普及(到2018年底大約有1億)到行動電話數字助理的普及,自然語言理解的進展正在從實驗室迅速轉向現實世界。
同樣在今年,艾倫研究所的研究人員發布了Swag:一個基本常識推理的大型對抗數據集(Swag:Alarge-largealAdversarialDataSetforGroundCommonsense),這是一個用於需要常識理解才能完成任務的句子的數據集。以及人的表現。
但希望我們能在2019年看到更多NLP的突破。許多計算機科學界最優秀的人士正在這個領域工作,工業界也渴望應用他們的成果。