*本文經(jīng)AI新媒體量子位(公眾號 ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
SQuAD 2.0來了!
今日(6月13日),斯坦福NLP團隊對外宣稱,機器閱讀理解數(shù)據(jù)集SQuAD(Stanford Question Answering Dataset)完成新一波更新,將由SQuAD 1.1版本迭代至SQuAD 2.0。
個中變化還是非常明顯的。
SQuAD 2.0
斯坦福NLP官方說,相較SQuAD 1.1中的10萬問答,SQuAD 2.0又新增了5萬個人類撰寫的問題——而且問題不一定有對應(yīng)答案。
于是同時迭代的SQuAD 2.0測試系統(tǒng),不僅要求機器能從對應(yīng)段落中找到問題答案,還測試機器在沒有對應(yīng)答案時可以say No,而不是瞎猜。
這算是進一步加大了機器在精準回答方面的難度。
目前,人類表現(xiàn)分別是EM——精準匹配結(jié)果:86.831分,F(xiàn)1——模糊匹配:89.452分。
需要指出的是,SQuAD推出之初,2016年,斯坦福大學(xué)從維基百科上隨機選取了500多篇文章,并進一步細分成兩萬多個段落。隨后采用眾包的方式,由人類閱讀這些文章后,為每個段落提出五個問題,并對段落內(nèi)的答案進行人工標注。
最后,終于構(gòu)成了包含10萬多個問題的閱讀理解數(shù)據(jù)集SQuAD。
但爭論也隱藏其中,并在今年“機器閱讀理解能力擊敗人類”事件中徹底吵開了。
SQuAD風(fēng)云
SQuAD數(shù)據(jù)集有兩個衡量標準,EM和F1。
EM是精確匹配結(jié)果,也就是模型給出的答案與標準答案一模一樣。
F1是模糊匹配,可以理解為機器答對了部分內(nèi)容,是根據(jù)模型給出的答案和標準答案之間的重合度計算出來的
基于SQuAD的排名比拼,也是考察EM和F1兩項成績。
過去一年,大部分時間都是科大訊飛團隊和微軟不同團隊的競爭。7月微軟登頂,8月科大訊飛首次折桂,9、10兩月基本是微軟天下,11月訊飛再次創(chuàng)出最佳成績。
然后風(fēng)云突變。先是騰訊突然殺入,并成功在12月底霸榜。然而“好景不長”,微軟亞洲研究院和阿里巴巴iDST團隊今年初先后發(fā)力,再次創(chuàng)出歷史最好成績,并且首次“超越人類”——他們在EM成績上都擊敗了“人類表現(xiàn)”。
于是就開始有聲音說:人類已經(jīng)在閱讀理解上被機器超越了。
但也馬上遭遇反駁。
學(xué)界一方面有人指出這種說法過于夸大不嚴謹。
另一方面也有人將矛頭指向SQuAD數(shù)據(jù)集局限性的問題。
以色列巴伊蘭大學(xué)的著名NLP研究者Yoav Goldberg,他專門寫了個PPT,列出了SQuAD1.1的三大不足:
受限于可以選擇span來回答的問題;
需要在給定的段落里尋找答案;
段落里保證有答案。
無獨有偶,DeepMind也專門發(fā)布了一篇名為NarrativeQA的論文談?wù)摿诉@些問題。
他們認為,由于SQuAD問題的答案必須是給定段落中的內(nèi)容,這就導(dǎo)致很多評估閱讀理解能力應(yīng)該用到的合情合理的問題,根本沒法問。
同時,這種簡單的答案通過文檔表面的信號就能提取出來,對于無法用文中短語來回答、或者需要用文中幾個不連續(xù)短語來回答的問題,SQuAD訓(xùn)練出來的模型無法泛化。
另外,SQuAD雖然問題很多,但其實用到的文章又少又短,這就限制了整個數(shù)據(jù)集詞匯和話題的多樣性。
因此,SQuAD上表現(xiàn)不錯的模型,如果要用到更復(fù)雜的問題上,可擴展性和適用性都很成問題。
DeepMind的論文說,包括SQuAD在內(nèi)的很多閱讀理解數(shù)據(jù)集都“不能測試出閱讀理解必要的綜合方面”。
所以此次SQuAD 2.0的更新,一定程度上也可視為對上述問題的回應(yīng)。
最新排名:猿輔導(dǎo)領(lǐng)隊中國軍團
當(dāng)然,哪里有AI數(shù)據(jù)集競賽,哪里就有不斷刷新榜單的中國軍團。
之前在SQuAD,中國代表團中的常客是科大訊飛、微軟亞洲研究院,不過去年以來,阿里達摩院旗下的iDST和騰訊也成了大軍中一員,甚至有幾次還是頭號玩家。
但是,SQuAD 1.1最新榜單里,成為中國軍團領(lǐng)頭羊的團隊,可能會令你陌生——YUANFUDAO。
沒錯,就是那個主打在線教育的猿輔導(dǎo)。
當(dāng)前猿輔導(dǎo)以EM83.520,F(xiàn)189.612的成績,微微微落后于Google大腦&CMU團隊,排名全球第二。
不過猿輔導(dǎo)雖然是SQuAD的新面孔,但在另一項知名機器閱讀比賽MSMARCO中,早已霸氣外露。
在3月27日的最新排名中,猿輔導(dǎo)位列MSMARCO全球第一。
而且成績還超過了人類水準,當(dāng)時猿輔導(dǎo)團隊的兩項測試得分為:49.72、48.02。而人類基準為47、46。
所以現(xiàn)在猿輔導(dǎo)出現(xiàn)在SQuAD 1.1全球玩家前列,實際也不算特別意外。
可順路一提的是,中國軍團在SQuAD 1.1最新榜單中實力確實超強,前十排名中,隨處可見中國團隊。
這才叫:厲害了,我的國。
本文轉(zhuǎn)自微信公眾號“量子位”,原標題《SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案》。文章為作者獨立觀點,不代表芥末堆立場。
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。