AI系統:建立多維度向量進行數據檢測
2023-03-31 16:41:05 2
在網絡時代,虛假新聞是壓倒一切的,令人困惑。Facebook曾一度陷入虛假新聞的泥潭,不僅被指控影響美國總統選舉的結果,還被指控觸發德國政府的巨額罰款。就連以信譽著稱的BBC也不能倖免。例如,BBC北安普頓分部的Twitter帳戶就發送了這樣一條信息:
爆料新聞:川普總統在就職典禮上受槍傷。
10月4日,麻省理工學院的計算機科學與人工智慧實驗室(CSAIL)在其官方網站上發布了一則消息,聲稱該實驗室與卡達計算研究所的研究人員合作,開發了一個人工智慧系統,該系統能夠識別信息源的準確性,並且能夠識別p.個人政治偏見。這項研究的結果將於本月底在比利時舉行。布魯塞爾舉行的2018年自然語言處理經驗方法會議(EMNLP)正式宣布。
研究人員使用人工智慧系統創建了一個包含1000多個新聞源的開源數據集,這些新聞源被標記為真實性和偏見分數。據說,這是相似數據集中最多的新聞源。
研究人員寫道,打擊虛假新聞的一種(希望)方法是關注來源。儘管虛假新聞(帖子)主要通過社交媒體傳播,但它們仍然有自己的原始來源,也就是說,一種,所以如果一個網站發布了虛假新聞,那麼它很有可能在將來被發布。
人工智慧系統的新穎之處在於它對所評估的媒體具有廣泛的上下文理解。它並不僅僅從新聞文章中提取特徵值(通過機器學習模型訓練的變量),而是考慮維基百科、社交媒體,甚至基於URL和網絡流量數據的結構來確定可信度。
系統的支持向量(SVM)訓練用於評估事實和偏差。真實性分為:低、中、高;政治傾向分為:極左、左、中左、右、右和極右。
該小組表示,該系統只需要檢測150篇文章,即可確定新原始碼是否可靠,在檢測新聞源是否具有高度、低度或中度真實性方面具有65%的準確率,在檢測其政治傾向是左傾、右傾還是中立方面具有70%的準確率。
在上面顯示的文章中,AI系統從六個維度測試了文章的文本和標題。它不僅分析了文章的結構、情感和參與(在本例中是股票數量、對Facebook的反應和評論),還分析了文章的主題、複雜性、偏見和道德觀念,並計算了每個特徵值的得分,然後對一組文章進行了平均評分。
維基百科和Twitter也被添加到人工智慧系統的預測模型中。正如研究人員所說,維基百科頁面的缺失可能表明一個網站不可信,或者說提及這個問題的政治傾向可能是諷刺的或者顯然是左傾的。此外,他們指出,信息公開不太可能。通過未經身份驗證的Twitter帳戶,或者使用沒有明確標記的新創建的帳戶,都是正確的。
模型的最後兩個向量是URL結構和網絡流量,它們可以檢測試圖模仿可信新聞源的URL(例如,foxnews.co),參考網站的Alexa排名,該排名是根據網站的訪問總數計算的。
該小組在MBCF(MediaBiasFactCheck)網站上對1066個新聞源進行了AI系統培訓。為了生成上述信息,研究人員在每個網站上發表了10-100篇文章(總共94814篇)。
正如研究人員在報告中煞費苦心地介紹的那樣,並非每個特徵值都能有效地預測事實的準確性或政治偏見。例如,一些沒有維基百科網頁或Twitter檔案的網站可能發布公平可信的信息,而Alexa排名靠前的新聞來源並不總是更公平或更真實。比那些交通不那麼擁擠的人更可信。
研究人員有一個有趣的發現:來自虛假新聞網站的文章更傾向於使用誇張和情緒化的語言,而左傾的媒體更傾向於提及公平和互惠。同時,維基百科頁面較長的出版物通常更值得信任,包含少量特殊內容的URL也是如此。字符和複雜子目錄。
將來,研究小組打算探索人工智慧系統是否可以適應其他語言(目前只有英語培訓)以及它是否可以被訓練來檢測特定領域的偏見。他們還計劃推出一個應用程式,通過政治領域的文章自動響應新聞。
該論文的第一作者兼博士後助理RamyBaly說:如果一個網站之前發布了虛假新聞,他們很可能會再次發布它。通過自動從這些網站抓取數據,我們希望我們的系統可以幫助找出哪些網站可以首先這樣做。
新德裡的初創公司MetaFact使用NLP算法在新聞報導和社交媒體帖子中標記錯誤信息和偏見;SAAS平臺AdVerify。AI去年發布了測試版來分析錯誤消息、惡意軟體和其他有問題的內容,並交叉引用定期更新的資料庫,該資料庫包含數千個錯誤和合法新聞。
如前所述,一度陷入虛假新聞的Facebook已經開始使用人工智慧工具來識別虛假新聞,最近收購了位於倫敦的初創公司Bloomsb.AI,以幫助其識別和消除虛假新聞。
然而,一些專家不相信人工智慧能夠勝任這項任務。卡內基梅隆大學機器人研究所的科學家迪安·波默洛在接受外國媒體的採訪時告訴《邊緣》雜誌,人工智慧缺乏對語言的微妙理解,這對於識別謊言和虛假陳述至關重要。
我們最初的目標是建立一個系統來回答,'這是假消息,是或不是,'他說,但我們很快意識到,機器學習不符合任務。
但是人類事實檢驗員並不一定比人工智慧做得更好。今年,在保守媒體指責谷歌對他們有偏見之後,谷歌暫停了過去在谷歌新聞上貼的標籤FactCheck。
然而,無論識別假新聞和個人偏見的最終解決方案是人工智慧系統還是人為的,或者兩者兼而有之,假新聞被消除的那一天都不會馬上到來。
諮詢公司Gartner預測,到2022年,如果目前的趨勢保持不變,大多數發達國家將看到更多的虛假信息而不是真實信息。