芥末堆芥末堆

機器閱讀理解數(shù)據(jù)集升級,猿輔導(dǎo)成全球前列玩家

作者:量子位 發(fā)布時間:

機器閱讀理解數(shù)據(jù)集升級,猿輔導(dǎo)成全球前列玩家

作者:量子位 發(fā)布時間:

摘要:厲害了,我的國。

640.webp.jpg

*本文經(jīng)AI新媒體量子位(公眾號 ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

SQuAD 2.0來了!

今日(6月13日),斯坦福NLP團隊對外宣稱,機器閱讀理解數(shù)據(jù)集SQuAD(Stanford Question Answering Dataset)完成新一波更新,將由SQuAD 1.1版本迭代至SQuAD 2.0。

個中變化還是非常明顯的。

SQuAD 2.0

斯坦福NLP官方說,相較SQuAD 1.1中的10萬問答,SQuAD 2.0又新增了5萬個人類撰寫的問題——而且問題不一定有對應(yīng)答案。

于是同時迭代的SQuAD 2.0測試系統(tǒng),不僅要求機器能從對應(yīng)段落中找到問題答案,還測試機器在沒有對應(yīng)答案時可以say No,而不是瞎猜。

這算是進一步加大了機器在精準回答方面的難度。

目前,人類表現(xiàn)分別是EM——精準匹配結(jié)果:86.831分,F(xiàn)1——模糊匹配:89.452分。

需要指出的是,SQuAD推出之初,2016年,斯坦福大學(xué)從維基百科上隨機選取了500多篇文章,并進一步細分成兩萬多個段落。隨后采用眾包的方式,由人類閱讀這些文章后,為每個段落提出五個問題,并對段落內(nèi)的答案進行人工標注。

最后,終于構(gòu)成了包含10萬多個問題的閱讀理解數(shù)據(jù)集SQuAD。

但爭論也隱藏其中,并在今年“機器閱讀理解能力擊敗人類”事件中徹底吵開了。

SQuAD風(fēng)云

SQuAD數(shù)據(jù)集有兩個衡量標準,EM和F1。

EM是精確匹配結(jié)果,也就是模型給出的答案與標準答案一模一樣。

F1是模糊匹配,可以理解為機器答對了部分內(nèi)容,是根據(jù)模型給出的答案和標準答案之間的重合度計算出來的

基于SQuAD的排名比拼,也是考察EM和F1兩項成績。

過去一年,大部分時間都是科大訊飛團隊和微軟不同團隊的競爭。7月微軟登頂,8月科大訊飛首次折桂,9、10兩月基本是微軟天下,11月訊飛再次創(chuàng)出最佳成績。

然后風(fēng)云突變。先是騰訊突然殺入,并成功在12月底霸榜。然而“好景不長”,微軟亞洲研究院和阿里巴巴iDST團隊今年初先后發(fā)力,再次創(chuàng)出歷史最好成績,并且首次“超越人類”——他們在EM成績上都擊敗了“人類表現(xiàn)”。

于是就開始有聲音說:人類已經(jīng)在閱讀理解上被機器超越了。

但也馬上遭遇反駁。

640.webp.jpg

學(xué)界一方面有人指出這種說法過于夸大不嚴謹。

另一方面也有人將矛頭指向SQuAD數(shù)據(jù)集局限性的問題。

以色列巴伊蘭大學(xué)的著名NLP研究者Yoav Goldberg,他專門寫了個PPT,列出了SQuAD1.1的三大不足:

  • 受限于可以選擇span來回答的問題;

  • 需要在給定的段落里尋找答案;

  • 段落里保證有答案。

無獨有偶,DeepMind也專門發(fā)布了一篇名為NarrativeQA的論文談?wù)摿诉@些問題。

他們認為,由于SQuAD問題的答案必須是給定段落中的內(nèi)容,這就導(dǎo)致很多評估閱讀理解能力應(yīng)該用到的合情合理的問題,根本沒法問。

同時,這種簡單的答案通過文檔表面的信號就能提取出來,對于無法用文中短語來回答、或者需要用文中幾個不連續(xù)短語來回答的問題,SQuAD訓(xùn)練出來的模型無法泛化。

另外,SQuAD雖然問題很多,但其實用到的文章又少又短,這就限制了整個數(shù)據(jù)集詞匯和話題的多樣性。

因此,SQuAD上表現(xiàn)不錯的模型,如果要用到更復(fù)雜的問題上,可擴展性和適用性都很成問題。

DeepMind的論文說,包括SQuAD在內(nèi)的很多閱讀理解數(shù)據(jù)集都“不能測試出閱讀理解必要的綜合方面”。

所以此次SQuAD 2.0的更新,一定程度上也可視為對上述問題的回應(yīng)。

最新排名:猿輔導(dǎo)領(lǐng)隊中國軍團

當(dāng)然,哪里有AI數(shù)據(jù)集競賽,哪里就有不斷刷新榜單的中國軍團。

之前在SQuAD,中國代表團中的常客是科大訊飛、微軟亞洲研究院,不過去年以來,阿里達摩院旗下的iDST和騰訊也成了大軍中一員,甚至有幾次還是頭號玩家。

但是,SQuAD 1.1最新榜單里,成為中國軍團領(lǐng)頭羊的團隊,可能會令你陌生——YUANFUDAO。

沒錯,就是那個主打在線教育的猿輔導(dǎo)。

當(dāng)前猿輔導(dǎo)以EM83.520,F(xiàn)189.612的成績,微微微落后于Google大腦&CMU團隊,排名全球第二。

640.webp (1).jpg

不過猿輔導(dǎo)雖然是SQuAD的新面孔,但在另一項知名機器閱讀比賽MSMARCO中,早已霸氣外露。

在3月27日的最新排名中,猿輔導(dǎo)位列MSMARCO全球第一。

640.webp (2).jpg

而且成績還超過了人類水準,當(dāng)時猿輔導(dǎo)團隊的兩項測試得分為:49.72、48.02。而人類基準為47、46。

所以現(xiàn)在猿輔導(dǎo)出現(xiàn)在SQuAD 1.1全球玩家前列,實際也不算特別意外。

可順路一提的是,中國軍團在SQuAD 1.1最新榜單中實力確實超強,前十排名中,隨處可見中國團隊。

640.webp (3).jpg

這才叫:厲害了,我的國。

本文轉(zhuǎn)自微信公眾號“量子位”,原標題《SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案》。文章為作者獨立觀點,不代表芥末堆立場。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文:量子位;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源:量子位
芥末堆商務(wù)合作:王老師 18710003484
  • 機器閱讀理解數(shù)據(jù)集升級,猿輔導(dǎo)成全球前列玩家分享二維碼