怎麼看cnn是什麼（別再吹CNN了簡單的區分異同都做不到）

2023-09-22 03:18:44 6

選自Quantamagazine

作者：John Pavlus

機器之心編譯

機器之心編輯部

主宰AI的CNN居然這麼菜：俄羅斯方塊換個方向就「不認識」了。

《芝麻街》中有一個遊戲，叫做「其中一個不一樣（One of These Things Is Not Like the Other）」。顧名思義，參與該遊戲的小朋友需要從幾個東西中找出那個不一樣的。對於人類幼崽來說，這個任務著實太簡單了，換著花樣玩一百次可能也不會出錯。

但是，對於神經網絡來說，這個遊戲就沒那麼簡單了。以強大的卷積神經網絡（CNN）為例，經過訓練的 CNN 可以完成一系列複雜任務，甚至比人類完成得還要出色，但最近的研究表明，CNN 只能在非常有限的條件下區分兩個簡單的圖案是否相同。只要稍微改變這些條件，該網絡的性能就會隨之下降。

2018 年的一項研究表明，雖然 CNN 能夠區分圖 (a) 中兩隻狗的品種，但卻不知道圖 (b)(i) 中的兩個圖案其實是一樣的，只是經過了旋轉。

這些結果在深度學習研究者和認知科學研究者中引起了爭議。如果工程方面得到提升，CNN 能否像人類幼崽一樣區分「相同」和「不同」？還是說 CNN 的抽象推理能力本身就是有限的，無論設計得多麼精巧，用多少數據訓練？

無論哪種猜想是對的，大多數研究者都同意一個觀點：理解異同關係是智能的重要標誌，無論這種智能是人工的還是其他形式的。

「不只你我能夠區分『相同』和『不同』，很多動物也能做到，比如鴨子和蜜蜂，」在約翰 · 霍普金斯大學研究視覺認知的 Chaz Firestone 表示。

成功區分異同的能力可以被看作人類作出各種推理的基礎。DeepMind 研究者 Adam Santoro 表示，他們公司正在「以一種整體的方式研究異 - 同關係」，即不僅局限於視覺場景，還擴展到了自然語言和物理交互。

「當我讓一個 AI 智能體『撿起玩具車』的時候，我的意思是讓它撿起我們玩的這輛玩具車，而不是隔壁房間那輛。」他解釋說。去年 10 月份一項關於異同推理的研究也強調了這一點。來自布朗大學等機構的研究者在文中寫道：「如果沒有識別『相同』的能力，打造真正智能的視覺推理機器的夢想就會變得無望。」

自 2013 年起，異同關係就一直困擾著神經網絡。當時的人工智慧先驅 Yoshua Bengio 及其合作者 Caglar Gulcehre 在論文《Knowledge Matters: Importance of Prior Information for Optimization》中的研究表明：CNN 無法判斷若干組俄羅斯方塊形狀是否相同。但這個盲點並沒有阻止 CNN 主宰 AI。卷積神經網絡曾幫助 AlphaGo 擊敗了世界上最好的圍棋棋手，近 90% 支持深度學習的 Android 應用都依賴於卷積神經網絡。

這種能力的激增重新點燃了一些研究人員對探索神經網絡無法做到的事情的興趣。CNN 通過粗略模仿哺乳動物大腦處理視覺輸入的方式來學習視覺處理。神經網絡中一層人工神經元檢測原始數據中的簡單特徵（例如亮度和對比度差異）。然後神經網絡再將這些特徵傳遞給連續的層，這些層將它們組合成更複雜、更抽象的類別。

根據布朗大學機器學習研究員 Matthew Ricci 的說法，異同關係似乎是對 CNN 局限性一個很好的測試，因為它們是「與圖像特徵無關的最簡單問題。」也就是說，兩個對象是否相同並不取決於它們是一對藍色三角形還是一對紅色圓圈。特徵之間的關係比特徵本身更重要。

2018 年，Ricci、Junkyung Kim 和 Thomas Serre 在來自合成視覺推理測試 (SVRT) 的圖像上測試了 CNN，SVRT 是一組旨在探索神經網絡抽象推理技巧的簡單圖案。這些圖案由在白色方塊上以黑色輪廓繪製的成對不規則形狀組成。如果一對圖案在形狀、大小和方向上都相同，則被歸類為「相同」；否則，這一對被標記為「不同」。

Ricci 等人的研究發現，使用來自 SVRT 圖像集中的新樣例訓練 CNN，辨別異同的準確率將高達 75%。但是只要以非常簡單的方式修改形狀（比如只是讓它們變大，或者拉遠它們之間的距離），CNN 的準確率就會嚴重下降。研究人員因此得出結論，神經網絡仍然專注於特徵，而不善於學習「異同」等關係概念。

去年，圖賓根大學的 Christina Funke 和 Judy Borowski 的研究表明，將神經網絡的層數從 6 層增加到 50 層可以將其在 SVRT 異同任務上的準確率提升到 90% 以上。然而，他們並沒有測試這個層數增加的 CNN 在 SVRT 數據集以外的樣例上性能如何。因此，該研究沒有任何證據表明更深層的 CNN 具備概括「異同」定義的能力。

布裡斯託大學的認知科學家 Guillermo Puebla 和 Jeffrey Bowers 在今年早些時候進行了一項後續研究。Puebla 以人類的智能舉例說：「人們一旦理解一種事物關係，就可以將它應用到任何相關事情上」，他認為 CNN 也應該遵守這個標準。

Puebla 和 Bowers 使用 4 種不同的初始設置（其中包含 Funke 和 Borowski 使用的一些設置）在 SVRT 異同任務的幾種變體上訓練了四個 CNN。他們發現圖案低級特徵的細微變化（比如將形狀輪廓的厚度從一個像素更改為兩個像素）通常就足以讓 CNN 的性能降低一半，從接近完美到幾乎無用。

這對人工智慧意味著什麼？不同人有不同的回答。Firestone 和 Puebla 認為最近一些研究中的實驗結果表明：當前的 CNN 缺乏基本的推理能力，並且無法通過添加更多數據或設計更精巧的訓練來解決這個問題。Puebla 表示：「儘管 CNN 越來越強大，但它不太可能解決辨別異同的問題。也許引入其他方法能夠解決，而只依靠 CNN 自己則無望。」

Funke 同意 Puebla 的結論。但她建議：「聲稱深度卷積神經網絡無法學習一個概念要非常謹慎。」DeepMind 研究員 Santoro 表示同意：「缺乏證據並不代表著證據不存在，神經網絡歷來如此。」Santoro 指出：神經網絡在數學上已被證明能夠在原則上逼近任何函數，並說道：「研究人員在這方面需要做的就是確定函數所需的實際條件。」

Ricci 則認為：讓任何機器學會辨別異同都需要在對學習本身的理解上取得突破。人類幼崽玩一次遊戲就能夠區分異同，不需要長期訓練。鳥類、蜜蜂和人類都可以通過這種方式學習，除了辨別異同，還有許多認知任務也是如此。Ricci 說：「我認為在弄清楚如何從少量樣本和新數據樣本中學習之前，很多問題都不能完全解決。」

原文連結：https://www.quantamagazine.org/same-or-different-ai-cant-tell-20210623/