科大訊飛刷新SQuAD2.0紀錄 收穫2018年第十個世界冠軍
2025-03-01 22:19:24
日前,哈工大訊飛聯合實驗室團隊(HFL)登頂SQuAD 2.0排行榜,擊敗谷歌(Google AI)、阿里達摩院(Alibaba DAMO)、微軟亞洲研究院(Microsoft Research Asia),獲得今年的第10個世界冠軍。
SQuAD2.0最新榜單(截至2018.11.22)
SQuAD(Stanford Question Answering Dataset)是個閱讀理解數據集,機器根據文本提供的信息,回答問題,而所有的答案都來自該文本,也就是說無法通過網際網路等其他渠道獲取相關問題的額外信息。
據斯坦福NLP官方所說,相較於SQuAD 1.1中的10萬問答,SQuAD 2.0又新增了5萬個人類撰寫的問題——而且問題不一定有對應答案,不僅要求機器能從對應段落中找到問題的答案,還需要機器在沒有對應答案時可以選擇無,而不是瞎猜,「不可回答的問題」算是進一步加大了機器在精準回答方面的難度。
在本次提交的系統中,哈工大訊飛聯合實驗室所提交的模型在EM指標達到82.374,F1指標達到85.310。
EM指標即精確匹配結果,也就是模型給出的答案與標準答案一致。
F1指標即模糊匹配結果,可以理解為機器答對了部分內容,是根據模型給出的答案和標準答案之間的重合度計算出來的。