*本文經(jīng)AI新媒體量子位(公眾號(hào) ID: QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
SQuAD 2.0來了!
今日(6月13日),斯坦福NLP團(tuán)隊(duì)對(duì)外宣稱,機(jī)器閱讀理解數(shù)據(jù)集SQuAD(Stanford Question Answering Dataset)完成新一波更新,將由SQuAD 1.1版本迭代至SQuAD 2.0。
個(gè)中變化還是非常明顯的。
SQuAD 2.0
斯坦福NLP官方說,相較SQuAD 1.1中的10萬(wàn)問答,SQuAD 2.0又新增了5萬(wàn)個(gè)人類撰寫的問題——而且問題不一定有對(duì)應(yīng)答案。
于是同時(shí)迭代的SQuAD 2.0測(cè)試系統(tǒng),不僅要求機(jī)器能從對(duì)應(yīng)段落中找到問題答案,還測(cè)試機(jī)器在沒有對(duì)應(yīng)答案時(shí)可以say No,而不是瞎猜。
這算是進(jìn)一步加大了機(jī)器在精準(zhǔn)回答方面的難度。
目前,人類表現(xiàn)分別是EM——精準(zhǔn)匹配結(jié)果:86.831分,F(xiàn)1——模糊匹配:89.452分。
需要指出的是,SQuAD推出之初,2016年,斯坦福大學(xué)從維基百科上隨機(jī)選取了500多篇文章,并進(jìn)一步細(xì)分成兩萬(wàn)多個(gè)段落。隨后采用眾包的方式,由人類閱讀這些文章后,為每個(gè)段落提出五個(gè)問題,并對(duì)段落內(nèi)的答案進(jìn)行人工標(biāo)注。
最后,終于構(gòu)成了包含10萬(wàn)多個(gè)問題的閱讀理解數(shù)據(jù)集SQuAD。
但爭(zhēng)論也隱藏其中,并在今年“機(jī)器閱讀理解能力擊敗人類”事件中徹底吵開了。
SQuAD風(fēng)云
SQuAD數(shù)據(jù)集有兩個(gè)衡量標(biāo)準(zhǔn),EM和F1。
EM是精確匹配結(jié)果,也就是模型給出的答案與標(biāo)準(zhǔn)答案一模一樣。
F1是模糊匹配,可以理解為機(jī)器答對(duì)了部分內(nèi)容,是根據(jù)模型給出的答案和標(biāo)準(zhǔn)答案之間的重合度計(jì)算出來的
基于SQuAD的排名比拼,也是考察EM和F1兩項(xiàng)成績(jī)。
過去一年,大部分時(shí)間都是科大訊飛團(tuán)隊(duì)和微軟不同團(tuán)隊(duì)的競(jìng)爭(zhēng)。7月微軟登頂,8月科大訊飛首次折桂,9、10兩月基本是微軟天下,11月訊飛再次創(chuàng)出最佳成績(jī)。
然后風(fēng)云突變。先是騰訊突然殺入,并成功在12月底霸榜。然而“好景不長(zhǎng)”,微軟亞洲研究院和阿里巴巴iDST團(tuán)隊(duì)今年初先后發(fā)力,再次創(chuàng)出歷史最好成績(jī),并且首次“超越人類”——他們?cè)贓M成績(jī)上都擊敗了“人類表現(xiàn)”。
于是就開始有聲音說:人類已經(jīng)在閱讀理解上被機(jī)器超越了。
但也馬上遭遇反駁。
學(xué)界一方面有人指出這種說法過于夸大不嚴(yán)謹(jǐn)。
另一方面也有人將矛頭指向SQuAD數(shù)據(jù)集局限性的問題。
以色列巴伊蘭大學(xué)的著名NLP研究者Yoav Goldberg,他專門寫了個(gè)PPT,列出了SQuAD1.1的三大不足:
受限于可以選擇span來回答的問題;
需要在給定的段落里尋找答案;
段落里保證有答案。
無(wú)獨(dú)有偶,DeepMind也專門發(fā)布了一篇名為NarrativeQA的論文談?wù)摿诉@些問題。
他們認(rèn)為,由于SQuAD問題的答案必須是給定段落中的內(nèi)容,這就導(dǎo)致很多評(píng)估閱讀理解能力應(yīng)該用到的合情合理的問題,根本沒法問。
同時(shí),這種簡(jiǎn)單的答案通過文檔表面的信號(hào)就能提取出來,對(duì)于無(wú)法用文中短語(yǔ)來回答、或者需要用文中幾個(gè)不連續(xù)短語(yǔ)來回答的問題,SQuAD訓(xùn)練出來的模型無(wú)法泛化。
另外,SQuAD雖然問題很多,但其實(shí)用到的文章又少又短,這就限制了整個(gè)數(shù)據(jù)集詞匯和話題的多樣性。
因此,SQuAD上表現(xiàn)不錯(cuò)的模型,如果要用到更復(fù)雜的問題上,可擴(kuò)展性和適用性都很成問題。
DeepMind的論文說,包括SQuAD在內(nèi)的很多閱讀理解數(shù)據(jù)集都“不能測(cè)試出閱讀理解必要的綜合方面”。
所以此次SQuAD 2.0的更新,一定程度上也可視為對(duì)上述問題的回應(yīng)。
最新排名:猿輔導(dǎo)領(lǐng)隊(duì)中國(guó)軍團(tuán)
當(dāng)然,哪里有AI數(shù)據(jù)集競(jìng)賽,哪里就有不斷刷新榜單的中國(guó)軍團(tuán)。
之前在SQuAD,中國(guó)代表團(tuán)中的常客是科大訊飛、微軟亞洲研究院,不過去年以來,阿里達(dá)摩院旗下的iDST和騰訊也成了大軍中一員,甚至有幾次還是頭號(hào)玩家。
但是,SQuAD 1.1最新榜單里,成為中國(guó)軍團(tuán)領(lǐng)頭羊的團(tuán)隊(duì),可能會(huì)令你陌生——YUANFUDAO。
沒錯(cuò),就是那個(gè)主打在線教育的猿輔導(dǎo)。
當(dāng)前猿輔導(dǎo)以EM83.520,F(xiàn)189.612的成績(jī),微微微落后于Google大腦&CMU團(tuán)隊(duì),排名全球第二。
不過猿輔導(dǎo)雖然是SQuAD的新面孔,但在另一項(xiàng)知名機(jī)器閱讀比賽MSMARCO中,早已霸氣外露。
在3月27日的最新排名中,猿輔導(dǎo)位列MSMARCO全球第一。
而且成績(jī)還超過了人類水準(zhǔn),當(dāng)時(shí)猿輔導(dǎo)團(tuán)隊(duì)的兩項(xiàng)測(cè)試得分為:49.72、48.02。而人類基準(zhǔn)為47、46。
所以現(xiàn)在猿輔導(dǎo)出現(xiàn)在SQuAD 1.1全球玩家前列,實(shí)際也不算特別意外。
可順路一提的是,中國(guó)軍團(tuán)在SQuAD 1.1最新榜單中實(shí)力確實(shí)超強(qiáng),前十排名中,隨處可見中國(guó)團(tuán)隊(duì)。
這才叫:厲害了,我的國(guó)。
本文轉(zhuǎn)自微信公眾號(hào)“量子位”,原標(biāo)題《SQuAD2.0來了!新增5萬(wàn)人工撰寫問題,且不一定有答案》。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場(chǎng)。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。