新四季網

谷歌最新人工智慧機器人(不再鸚鵡學舌26億參數量)

2023-11-07 17:44:17

選自Google博客

機器之心編譯
參與:一鳴、Jamin

開放領域聊天機器人是人工智慧研究的一個重要領域。近日谷歌一篇博客介紹了團隊在該領域的最新研究進展——Meena 機器人。

現在的對話智能體(即聊天機器人)都是非常專業化的,如果用戶不偏離場景太遠的話,這些機器人的表現還是很不錯的。但是,要想讓聊天機器人能夠完成更廣泛話題下的對話任務,發展開放領域聊天機器人就顯得很重要了。
開放領域聊天機器人不會僅限於在某個特定領域,而是能夠和用戶聊近乎所有的話題。這一研究不僅具有學術價值,還可以激發很多有趣的應用,如更深層次的人機互動、提升外語訓練的效果,或用於製作交互式電影和遊戲角色。
但是,現在的開放領域聊天機器人有一個嚴重的缺陷——它們產生的對話內容往往沒什麼意義。要麼它們的對話和當前的內容沒什麼連貫性,或者對現實世界沒有常識和基本知識。此外,它們對於當前的語境往往給不出特定的回覆。例如,「我不知道」確實是一個可以回答任何問題的答覆,但是不夠詳細。現在的聊天機器人產生這種回復的頻率比人類要高很多,因為這種回復可以覆蓋很多可能的用戶輸入。
為了解決這些問題,谷歌的研究者提出了一個新的聊天機器人,名為 Meena。這是一個有著 26 億參數的端到端神經對話模型,也就是 GPT-2 模型最大版本(15 億參數)的 1.7 倍。通過實驗可以看到,Meena 比現有的 SOTA 聊天機器人能夠更好地完成對話,對話內容顯得更為具體、清楚。
在測評中,谷歌採用了他們新提出的人類評價指標,名為「Sensibleness and Specificity Average (SSA)」。這個指標能夠捕捉基本但對於人類對話重要的屬性。值得注意的是,研究者同時還發現,困惑度——一個很容易在各種神經對話模型中實現的計算指標,和 SSA 有著高度的相關性。

Meena(左)和人類(右)之間的對話。
Meena 機器人
Meena 是一個端到端的神經對話模型,可以學習如何對給定的對話上下文做出響應。訓練 Meena 的目標是最大程度地減少困惑度,以及預測下一個標記(在這種情況下為對話中的下一個單詞)的不確定性。
其核心為 Evolved Transformer seq2seq 架構,也就是通過進化神經架構搜索發現的一種 Transformer 體系結構,可以改善困惑度。
Meena 由一個 Evolved Transformer 編碼器和 13 個 Evolved Transformer 解碼器組成,如下圖所示。編碼器用於處理對話語境,幫助 Meena 理解對話中已經說過的內容。解碼器則利用這些信息生成實際的回覆。通過超參數調整後,研究者發現性能更強的解碼器是實現高質量對話的關鍵。

Meena 根據七輪對話的語境生成回復。
用於訓練的對話語料以樹狀脈絡形式組織起來,每個回復可以被認為是一輪對話。研究者將每輪對話抽取作為訓練樣本,而該輪之前的 7 輪對話作為語境信息,構成一組數據。選擇 7 輪對話作為語境是因為它既能夠獲得足夠長的語境信息,也還能夠讓模型在內存限制下進行訓練。畢竟文本越長,內存佔用就越大。
據博客介紹,Meena 在 341GB 的文本上進行了訓練,這些文本是從公共領域社交媒體對話上過濾得到的,和 GPT-2 相比,數據量是後者的 8.5 倍。
人類評價指標 SSA
現有聊天機器人的人類評價指標有些複雜,而且在評價者間也很難形成標準一致的評價。這使得研究者設計了一種新的人類評價指標,名為「Sensibleness and Specificity Average (SSA)」。
為了計算 SSA,研究者使用眾包方式測試了 Meena、Mitsuku、Cleverbot、小冰和 DialoGPT 等聊天機器人。為了保證評價的連貫性,每個對話都以「Hi」開始。在評價中,人類評價者需要回答兩個問題:「對話講得通嗎?」以及「對話夠詳細具體嗎?」評價者使用常識評價聊天機器人的回覆。
在評價中,只要有令人困惑、不合邏輯、跑題或者事實性錯誤的回覆,評價者就可以打「對話講不通」。如果對話講得通,評價者就需要評價對話是否具體詳細。例如,人類對話者說「我喜歡打網球。」,而聊天機器人僅僅回復「這很好。」就可以判斷對話是不夠具體詳細的,因為沒有針對語境進行回復。
對於每個聊天機器人,研究者收集了 1600 到 2400 輪對話。每個模型的回覆都被人類評價者打上評價結果的標籤(對話是否講得通和對話是否具體詳細)。最後的 SSA 分數是兩者的均值。如下結果說明,Meena 相比於現有的 SOTA 聊天機器人有著更高的 SSA 分數,接近了人類的表現。

Meena 和其他聊天機器人的性能對比。
困惑度指標
但是,由於人類評價存在的問題,很多研究者都希望找到一個能夠自動計算的評價指標。這個指標需要能夠和人類評價精確對應。研究者在研究中發現,困惑度(perplexity),一個在 seq2seq 模型中常見的指標,和 SSA 有著強相關性。
困惑度用於評價一個語言模型的不確定性,低困惑度說明模型在生成下一個 token(如字、詞等)時有著更高的信心。困惑度表示的是模型在選擇生成下一個 token 的過程中的候選數量。
在研究中,研究中採用了 8 個不同的模型版本,分別有著超參數和架構上的區別,如層數、注意力 head 數量、訓練步數,使用的是 Evolved Transformer 還是一般的 Transformer,使用 hard label 進行旋律還是使用蒸餾的方法進行訓練等。從下圖來看,越低的困惑度模型有著更高的 SSA 分數,而兩者的相關係數很強(R^2 = 0.93)。

交互式 SSA vs. 困惑度。每個藍點都是都是 Meena 模型的不同版本。這裡繪製出了回歸曲線,表明 SSA 與困惑度之間存在很強的相關性。虛線則表示了人,其他機器人,Meena(base),端到端的訓練模型以及具有過濾機制和調整解碼的 Meena。
最好的端到端 Meena 訓練模型,被稱之為 Meena(base),實現了 10.2 的困惑度(越小越好)轉化為 72% 的 SSA 得分。與其他獲得 SSA 分數相比,72% 的 SSA 分數與普通人獲得的 86% 的 SSA 分數相差不遠。Meena 的完整版具有過濾機制和調整解碼,會進一步將 SSA 分數提高到 79%。
未來的研究與挑戰
按照之前的描述,研究者將繼續通過改進算法、架構、數據和計算量去降低神經會話模型的困惑度。
雖然研究者再這項工作中只專注於敏感性和獨特性,而其他屬性如個性和真實性等依舊值得在後續的工作中加以考慮。此外,解決模型中的安全性和偏差也是一個關鍵的重點領域,鑑於當下面臨的挑戰是與此相關的,就目前而言團隊不會發布研究演示。但是,研究者正在評估將模型檢查點具體化所帶來的風險及益處,並且有可能會選擇在未來幾個月內使其可用,用來幫助推進該領域的研究工作。
參考連結:https://arxiv.org/abs/2001.09977
https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html

,
同类文章
貓咪多久需要擠肛門腺(貓咪肛門腺到底要不要擠)

貓咪多久需要擠肛門腺(貓咪肛門腺到底要不要擠)

鏟屎官最近聞到自家的貓咪散發出一股臭味,久久揮散不去,走哪帶哪。 貓咪也開始頻繁在地上摩擦自己的屁股,這是貓咪需要擠肛門腺了嘛? 鏟屎官立刻就某度了一下,結果有人說要擠!有人說不要擠!這給人整暈乎了,到底是擠還是不擠啊! 本篇文章就幫鏟屎官們理理清楚,先出結論:不用擠!
寧波流浪狗愛心救助直播(寧波最暖心物業)

寧波流浪狗愛心救助直播(寧波最暖心物業)

救人一命 勝造七級浮屠 那救狗一命呢? 天熱了 小動物們都很愛折騰啊 論壇上剛來了一隻最不要臉的邊牧犬 現在又有了一隻錯估自己頭型 伸進欄杆卻出不來的流浪狗 …… (拍的略糊,可這小眼神看著又慘又想笑) 東論網友@quyd拍攝 終於,這副慘狀引來好心
蜘蛛俠新角色首曝(蜘蛛俠新女友黑貓)

蜘蛛俠新角色首曝(蜘蛛俠新女友黑貓)

2021年還剩下幾天就將成為過去式,而未來式的2022年也是站在了接力點前,而伴隨著2022年虎年的到來,關於漫威這段時間的很多消息傳聞也是不斷湧現出來,有關於後續的項目作品的,也有關於之前漫威項目新消息的。 所以,今天咱們就來看看,漫威這段時間都有哪些新消息曝光: 【1】8個漫威秘
狗突然的對主人叫心臟都要嚇壞了(主人以為狗狗躺在血泊中)

狗突然的對主人叫心臟都要嚇壞了(主人以為狗狗躺在血泊中)

家裡養了狗,那真就是隨時準備迎接新驚喜,尤其是柯基這種渾身上下散發著「智慧」氣質的狗狗。 這隻超可愛的柯基叫作Cartier,它的主人在泰國大城經營著一家咖啡館兒,平時它就跟主人在店裡呆著,四處遛遛什麼的。 前幾天主人像往常一樣讓Cartier出門自己上廁所然後等它回來。結果等了好久
貓超卡划算嗎(10元貓超卡又來了)

貓超卡划算嗎(10元貓超卡又來了)

前言:收到顯示器,黑色背景下全是彩色亮點,換貨; 不過27寸4K的屏幕,用電腦真的爽,比筆記本爽多了,雖然我這個筆記本是16寸的。01 10元貓超卡又來? 一、活動概覽 活動地址:https://developer.aliyun.com/adc/series/activity/serv
戰神貓熊滿級(娜貓的雙子指令形態登場)

戰神貓熊滿級(娜貓的雙子指令形態登場)

在最新的特攝雜誌上,出現了比較有趣的劇照,首先就是關於女騎假面騎士娜貓的新形態。雖然是女騎,但其實她的新形態比較少,目前一直都是在使用這個節拍形態,終於有了新的形態了。另外就是之前因為基洛利而下線的假面騎士棕熊,似乎並沒有死亡,然後再度歸來。然後就是假面騎士極狐和邪魔徒的立場了,似乎是合作了?因為
世界排名前10最聰明的狗貴賓(能記住一千多個單詞)

世界排名前10最聰明的狗貴賓(能記住一千多個單詞)

2021年5月10日,Hub City Animal Project宣布展出一座銅像,以紀念「世界上最聰明的狗狗」——Chaser。 她有多聰明呢?她在1歲時就能記住約4百個單詞,在三歲時,她的詞彙量已經超過了一千個! Chaser飼主的女兒Bianchi還說道,除了知道哪個單詞對應
淘寶目前暢銷的玩具(天貓618四大類玩具熱賣榜)

淘寶目前暢銷的玩具(天貓618四大類玩具熱賣榜)

截止6月20日23:59,天貓「618年中大促」落下帷幕。與往年鋪天蓋地的宣傳相比,今年整個活動周期都顯得有些安靜,平臺方甚至沒在活動結束第一時間發布最終成交額數據。這不免讓人忐忑:今年的行情是否很差? 從玩具業來看,不是很樂觀。中外玩具全媒體中心記者從部分廠商處獲悉,由於疫情對經濟造成的
愛養貓的女生什麼性格(養女兒如養貓)

愛養貓的女生什麼性格(養女兒如養貓)

在眾多想生兒子的家庭中,不全是因為重男輕女,而是有些夫妻感覺養女兒後經歷失望和傷心,許多方面要比養男孩更操心。 可女兒不是一直被稱為爸爸媽媽的貼心小棉襖嗎?為何會有人這樣比喻女兒呢?這不得不提有些女孩總在感情中犯傻的情況。 不久前的假期我參加了多場婚禮,現場有許多新娘新郎的長輩,在一聲聲祝
已滅絕的金剛鸚鵡(最高可賣上萬歐元)

已滅絕的金剛鸚鵡(最高可賣上萬歐元)

金剛鸚鵡原產於巴西的亞馬遜熱帶雨林地區。圖據《國家地理》網站 金剛鸚鵡是色彩豔麗的大型鸚鵡,羽毛五彩斑斕,像彩虹一樣漂亮。平均體長在90-100釐米左右。它們智商很高,模仿能力超強,平均壽命有65年之久。由於廣受喜歡,金剛鸚鵡長期以來成為不法分子走私的對象。據美國《國家地理》雜誌報導,隨