新四季網

字節跳動算法工程師現狀及前景(字節跳動今斬獲最佳論文)

2023-05-08 16:29:58

機器之心報導

機器之心編輯部

被頂會拒稿請不要灰心,說不定你的論文會成為另一個頂會的最佳。

昨日,NLP 領域國際頂會 ACL 2021 公布獲獎論文信息:來自字節跳動火山翻譯的一篇神經機器翻譯工作被評為最佳論文。此外,最佳主題論文、傑出論文也揭曉。

ACL,是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。

一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。

今年的 ACL 大會已是第 59 屆,計劃於 8 月 1-6 日在泰國曼谷舉行

不久之前,ACL 2021 官方發布了關於本屆大會接收結果:本屆 ACL 共計收到 3350 篇論文投稿,最終有 21.3% 的論文錄用到主會(Main Conference),並額外接收了 14.9% 的論文到 Findings 子刊,綜合錄用率為 36.2%。我們可以從被接收的論文作者與機構中發現,有大量的國內論文被接收。

除了接收論文之外,今年的 ACL 的組織成員裡面也有大量的華人面孔,特別是今年的年會主席是中科院自動化研究所的宗成慶老師,程序主席包括華盛頓大學的 Fei Xia 教授、香港理工大學 Wenjie Li 教授。

昨天,大家最為關注的 ACL 2021 獲獎論文公布,令人驚喜的是這些獲獎論文裡面也包含多篇國內研究成果:如來自字節跳動火山翻譯的機器翻譯研究獲得最佳論文,來自港中文、騰訊 AI Lab 合作的論文也入選傑出論文。

最佳論文:字節跳動火山翻譯

ACL 2021 的最佳論文來自字節跳動火山翻譯團隊,該研究提出了一種新的詞表學習方案『 VOLT,在多種翻譯任務上取得了優秀的結果。

標題:Vocabulary Learning via Optimal Transport for Neural Machine Translation作者:許晶晶、周浩、甘純、鄭在翔、李磊論文地址:https://arxiv.org/pdf/2012.15671.pdf代碼地址:https://github.com/Jingjing-NLP/VOLT

對於從業者來說,大家無時無刻不在使用詞表對語言進行向量化表示。在深度學習時代,詞表構建基本上是所有自然語言處理任務的第一步工作。儘管現今也有了一些比較通用的詞表處理方法,但是仍然沒有辦法回答最基礎的問題:什麼是最優詞表,如何生成最優詞表?

為了回答該問題,本論文嘗試提出一種無需訓練的詞表評價指標和針對該評價指標的詞表學習方案 VOLT。該方案在常用的英德翻譯、英法翻譯、低資源翻譯、多語言翻譯上都取得了相比傳統詞表解決方案更好的結果。

表 1:使用 VOLT 與廣泛使用的 BPE 詞表進行詞彙搜索的結果比較。VOLT 得到了更高的 BLEU 分數,同時大大減少了詞彙量。此處採用的是 X-En 設置下的詞彙量。

使用 VOLT 生成詞彙,簡單的基線方法就能夠實現 SOTA 結果。該研究在 En-De 數據集上測試了 VOLT 和其他幾種方法的性能,結果如表 5 所示。與其他方法相比,VOLT 以更少的詞彙量實現了幾乎最佳的性能。這些結果表明,簡單的基線方法使用定義明確的詞表就能夠獲得良好的結果。

表 5:VOLT 和強基準之間的比較結果。VOLT 在詞彙量較少的情況下取得了幾乎最好的表現。

值得一提的是,該研究修改前的版本曾投至另一個機器學習頂會 ICLR 2021。在 Openreview 網站上現在還能看到該論文及匿名評審的結果。當時四名評審給出的意見是 3、3、4、4——未達到接收標準,作者做了rebuttal之後撤稿投了ACL。

論文作者之一的周浩在社交網絡中表示:「關於從 ICLR 到 ACL 的轉投當時情況是這樣的,我們在投 ICLR 的時候花了太多時間在實驗上,在 writing 上花的時間很不夠,整個 paper 顯地平鋪直敘,Intuition 沒有說出來,且有部分重要的實驗沒有補充。結果大家也看到了,我覺得這是一個重要的 lesson,也歡迎大家對比我們兩個版本的論文。」

論文一作許晶晶則總結了經驗與教訓:「我學到的最重要教訓是一定要把東西寫清楚。雖然寫作不是最重要的,idea 才是,但是寫清楚是讓評審評價工作的前提。其實 ICLR 的評審和 ACL 的評委都對我們的 Idea 做了肯定,新穎性和有趣性都是被承認的,我們給出的基於最大邊際效應的解釋,和把詞表學習建模成一個最優運輸問題都是全新的一套想法。ICLR 對 idea 沒有太多問題,問題主要是在寫作上,後來我們把寫作改進之後,能拿到高分雖然意料之外,倒也在情理之中。有一說一,我們 ICLR 那篇工作確實寫的不好。評審的反饋主要在以下幾個方面:實驗做的不夠充分,方法介紹的不夠清楚,動機也缺乏直接證據。後來的這幾點,我們在 ACL 版本都做了大量的改進。我們補充了很多後續實驗,寫作也推倒重來,一遍遍推敲邏輯是否合理,實驗是不是嚴謹和充分等等,整個過程是很痛苦的。所以後來我們得到 ACL 的評審認可的時候非常激動,畢竟投入了很多心血的工作終於得到了回報。」

這篇論文在一番改進之後獲得了另一個頂會的最佳獎項,過程可謂大起大落。

最佳主題論文:CMU

今年的最佳主題論文(Best theme paper)研究來自卡耐基梅隆大學、巴伊蘭大學、加勞德特大學與艾倫人工智慧研究所等機構。第一作者殷綺妤(Kayo Yin)本科畢業於巴黎綜合理工學院,目前是卡耐基梅隆大學的在讀研究生。

標題:Including Signed Languages in Natural Language Processing作者:Kayo Yin、Amit Moryossef、Julie Hochgesang、Yoav Goldberg、Malihe Alikhani機構:CMU、巴伊蘭大學、加勞德特大學、艾倫人工智慧研究所、匹茲堡大學連結:https://arxiv.org/abs/2105.05222

論文摘要:手語是許多聾啞人和重聽人交流的主要手段。由於手語表現了自然語言的所有基本語言特性,該研究認為自然語言處理的工具和理論對其建模至關重要。然而,現有的手語處理 (SLP) 研究很少嘗試探索和利用手語的語言結構組織。該研究呼籲 NLP 社區將手語作為具有高度社會和科學影響的研究領域。該研究首先討論了手語在建模過程中要考慮的語言屬性;然後回顧了當前 SLP 模型的局限性,並確定了將 NLP 擴展到手語的開放挑戰;最後,該研究建議以下幾點 (1) 採用一種有效的 tokenization 方法 (2) 語言信息模型的發展 (3) 真實世界的手語數據的收集(4) 將當地手語社區納入到積極而主導話語權研究方向中。

六篇傑出論文

除最佳論文以外,今年的 ACL 還評出了六篇傑出論文(Outstanding papers),其中包括港中文、騰訊 AI Lab、史丹福大學(李飛飛、曼寧等人團隊)的研究。

論文 1:All That’s 『Human』 Is Not Gold: Evaluating Human Evaluation of Generated Text

作者:Elizabeth Clark、Tal August、Sofia Serrano、Nikita Haduong、Suchin Gururangan、Noah A. Smith機構:華盛頓大學、艾倫人工智慧研究所論文地址:https://arxiv.org/abs/2107.00061

論文摘要:人類評估通常被認為是自然語言生成的黃金標準,但隨著模型流暢程度的提升,評估者能夠檢測、判斷出機器生成的文本嗎?在這項研究中,研究者評估了非專家在故事、新聞、食譜三個領域中區分人工與機器(GPT-2、GPT-3)撰寫文本的能力。他們發現,未經過訓練的評估者區分 GPT-3 與人類生成文本的概率是隨機的。研究者探索了三種快速訓練評估者的方法以更好地識別 GPT-3 生成的文本(詳細說明、附加注釋的例子和配對例子) ,並發現其準確率提高了 55%,但在上面提到的三個領域仍然沒有顯著改善。考慮到文本域的結果不一致,以及評估者給出的判斷常常相互矛盾,研究者檢驗了未經訓練的人類評估者在自然語言生成評估中所起的作用,並為自然語言生成的研究者們提供了改進人類評估文本生成結果的最新模型建議。

論文 2:Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning

作者:Armen Aghajanyan、Sonal Gupta、Luke Zettlemoyer機構:Facebook論文地址:https://arxiv.org/abs/2012.13255

論文摘要:儘管可以通過對預訓練語言模型進行微調,來為廣泛的語言理解任務產生 SOTA 結果,但該過程的具體原理還沒有得到很好的解釋,尤其是在低數據範圍內。為什麼使用相對普通的梯度下降算法(例如不包含強大的正則化)就能在只有數百或數千個標記樣本的數據集上調整具有數億個參數的模型?在該論文中,研究者認為從內在維度的角度分析微調,能夠得到解釋上述現象的實驗和理論依據。該研究通過實驗表明,常見的預訓練模型具有非常低的內在維度;換句話說,存在與完全參數空間一樣有效的微調低維重參數化。例如,通過僅優化隨機投射回完全空間的 200 個可訓練參數,研究者可以調整 RoBERTa 模型以在 MRPC 上實現 90% 的完全參數性能水平。此外,該研究通過實驗表明,預訓練隱式地最小化了內在維度,也許令人驚訝的是,經過一定數量的預訓練更新,較大的模型往往具有較低的內在維度,這在一定程度上解釋了它們的極端有效性。最後,研究者將內在維度與低維任務表徵和基於壓縮的泛化邊界聯繫起來,以提供基於內在維度的,與完全參數數量無關的泛化邊界。

論文 3:Mind Your Outliers! Investigating the Negative Impact of Outliers on Active Learning for Visual Question Answering

作者:Siddharth Karamcheti、Ranjay Krishna、Li Fei-Fei、Christopher Manning機構:史丹福大學

目前,這篇論文的 PDF 和網站還未公開,之後將持續關注。

論文 4:Neural Machine Translation with Monolingual Translation Memory

作者:Deng Cai、Yan Wang、Huayang Li、Wai Lam、Lemao Liu機構:香港中文大學、騰訊 AI Lab論文地址:https://arxiv.org/pdf/2105.11269.pdf

論文摘要:先前的研究證明翻譯記憶 (TM) 可以提高神經機器翻譯 (NMT) 的性能。與使用雙語語料庫作為 TM 並採用源端相似性搜索進行記憶檢索的現有工作相比,該研究提出了一種新框架,該框架使用單語記憶並以跨語言方式執行可學習的記憶檢索,該框架具有獨特的優勢。首先,跨語言記憶檢索器允許大量的單語數據成為 TM。第二,記憶檢索器和 NMT 模型可以為最終的翻譯目標進行聯合優化。實驗表明,該方法得到了顯著的改進。值得注意的是,它甚至優於使用雙語 TM 的「TM-augmented NMT」基線方法。由於能夠利用單語數據,該研究還證明了所提模型在低資源和領域適應場景中的有效性。

論文 5:Scientific Credibility of Machine Translation Research: A Meta-Evaluation of 769 Papers

作者:Benjamin Marie、Atsushi Fujita、Raphael Rubino機構:NICT(日本)論文地址:https://arxiv.org/pdf/2106.15195.pdf

論文摘要:本文提出了首個大規模機器翻譯 (MT) 元評估(metaevaluation)。該研究對 2010 年至 2020 年發表的 769 篇研究論文進行了機器翻譯評估。研究表明,MT 自動評估的實踐在過去的十年中發生了巨大的變化,並遵循相關的趨勢。越來越多的 MT 評估僅依靠 BLEU 得分之間的差異得出結論,而不進行任何統計意義測試或人為評價,而至少有 108 個指標聲稱優於 BLEU。在最近的論文中,MT 評估傾向於複製和比較以前工作中的自動度量得分,以聲稱一種方法或算法的優越性,而沒有確認使用過完全相同的訓練、驗證和測試數據,度量得分不具有可比性。此外,報告標準化度量得分的工具還遠未被 MT 社區廣泛採用。在展示了這些缺陷累積導致可疑的評估後,該研究提出了一個準則,以鼓勵更好的自動 MT 評估以及一個簡單的元評估得分方法來評估其可信度。

論文 6:UnNatural Language Inference

作者:Koustuv Sinha、Prasanna Parthasarathi、Joelle Pineau、Adina Williams機構:麥吉爾大學、MILA、FAIR論文地址:https://arxiv.org/pdf/2101.00010.pdfGitHub 地址:https://github.com/facebookresearch/unlu

論文摘要:近期基於 Transformer 的自然語言理解研究表明,這些大規模預訓練 SOTA 模型似乎能夠在某種程度上理解類人的語法。在這篇論文中,研究者提供了一些新的證據,從更複雜的維度闡釋了這一問題。他們發現當前的自然語言推理 SOTA 模型能夠給重新排列的示例打上與此前相同的標籤,也就是說,它們在很大程度上對隨機的詞序排列具有不變性。為了度量這個問題的嚴重性,研究者提出了一套度量方法,並研究了特定排列中的哪些特質使得模型具備詞序不變性。例如在 MNLI 數據集中,研究者發現幾乎所有 (98.7%) 的示例都至少包含一個引發黃金標籤的序列。模型有時候甚至能為它們最初未能正確預測的序列分配黃金標籤。在進行了全面的實驗評估以後,結果表明這個問題存在於 Transformer 和基於 pre-Transformer 架構的編碼器,在跨多種語言時也會出現。

ACL 獲獎論文完整列表:https://2021.aclweb.org/program/accept/

參考內容:

https://www.zhihu.com/question/470224094

,
同类文章
葬禮的夢想

葬禮的夢想

夢見葬禮,我得到了這個夢想,五個要素的五個要素,水火只好,主要名字在外面,職業生涯良好,一切都應該對待他人治療誠意,由於小,吉利的冬天夢想,秋天的夢是不吉利的
找到手機是什麼意思?

找到手機是什麼意思?

找到手機是什麼意思?五次選舉的五個要素是兩名士兵的跡象。與他溝通很好。這是非常財富,它擅長運作,職業是仙人的標誌。單身男人有這個夢想,主要生活可以有人幫忙
我不怎麼想?

我不怎麼想?

我做了什麼意味著看到米飯烹飪?我得到了這個夢想,五線的主要土壤,但是Tu Ke水是錢的跡象,職業生涯更加真誠。他真誠地誠實。這是豐富的,這是夏瑞的巨星
夢想你的意思是什麼?

夢想你的意思是什麼?

你是什​​麼意思夢想的夢想?夢想,主要木材的五個要素,水的跡象,主營業務,主營業務,案子應該抓住魅力,不能疏忽,春天夢想的吉利夢想夏天的夢想不幸。詢問學者夢想
拯救夢想

拯救夢想

拯救夢想什麼意思?你夢想著拯救人嗎?拯救人們的夢想有一個現實,也有夢想的主觀想像力,請參閱週宮官方網站拯救人民夢想的詳細解釋。夢想著敵人被拯救出來
2022愛方向和生日是在[質量個性]中

2022愛方向和生日是在[質量個性]中

[救生員]有人說,在出生88天之前,胎兒已經知道哪天的出生,如何有優質的個性,將走在什麼樣的愛情之旅,將與生活生活有什么生活。今天
夢想切割剪裁

夢想切割剪裁

夢想切割剪裁什麼意思?你夢想切你的手是好的嗎?夢想切割手工切割手有一個真正的影響和反應,也有夢想的主觀想像力。請參閱官方網站夢想的細節,以削減手
夢想著親人死了

夢想著親人死了

夢想著親人死了什麼意思?你夢想夢想你的親人死嗎?夢想有一個現實的影響和反應,還有夢想的主觀想像力,請參閱夢想世界夢想死亡的親屬的詳細解釋
夢想搶劫

夢想搶劫

夢想搶劫什麼意思?你夢想搶劫嗎?夢想著搶劫有一個現實的影響和反應,也有夢想的主觀想像力,請參閱週恭吉夢官方網站的詳細解釋。夢想搶劫
夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂

夢想缺乏缺乏紊亂什麼意思?你夢想缺乏異常藥物嗎?夢想缺乏現實世界的影響和現實,還有夢想的主觀想像,請看官方網站的夢想組織缺乏異常藥物。我覺得有些東西缺失了