AV在线精品二区亚洲,视频一区视频二区日韩

640.webp.jpg

*本文經(jīng)AI新媒體量子位（公眾號(hào) ID: QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請(qǐng)聯(lián)系出處。

SQuAD 2.0來了！

今日（6月13日），斯坦福NLP團(tuán)隊(duì)對(duì)外宣稱，機(jī)器閱讀理解數(shù)據(jù)集SQuAD（Stanford Question Answering Dataset）完成新一波更新，將由SQuAD 1.1版本迭代至SQuAD 2.0。

個(gè)中變化還是非常明顯的。

SQuAD 2.0

斯坦福NLP官方說，相較SQuAD 1.1中的10萬(wàn)問答，SQuAD 2.0又新增了5萬(wàn)個(gè)人類撰寫的問題——而且問題不一定有對(duì)應(yīng)答案。

于是同時(shí)迭代的SQuAD 2.0測(cè)試系統(tǒng)，不僅要求機(jī)器能從對(duì)應(yīng)段落中找到問題答案，還測(cè)試機(jī)器在沒有對(duì)應(yīng)答案時(shí)可以say No，而不是瞎猜。

這算是進(jìn)一步加大了機(jī)器在精準(zhǔn)回答方面的難度。

目前，人類表現(xiàn)分別是EM——精準(zhǔn)匹配結(jié)果：86.831分，F(xiàn)1——模糊匹配：89.452分。

需要指出的是，SQuAD推出之初，2016年，斯坦福大學(xué)從維基百科上隨機(jī)選取了500多篇文章，并進(jìn)一步細(xì)分成兩萬(wàn)多個(gè)段落。隨后采用眾包的方式，由人類閱讀這些文章后，為每個(gè)段落提出五個(gè)問題，并對(duì)段落內(nèi)的答案進(jìn)行人工標(biāo)注。

最后，終于構(gòu)成了包含10萬(wàn)多個(gè)問題的閱讀理解數(shù)據(jù)集SQuAD。

但爭(zhēng)論也隱藏其中，并在今年“機(jī)器閱讀理解能力擊敗人類”事件中徹底吵開了。

SQuAD風(fēng)云

SQuAD數(shù)據(jù)集有兩個(gè)衡量標(biāo)準(zhǔn)，EM和F1。

EM是精確匹配結(jié)果，也就是模型給出的答案與標(biāo)準(zhǔn)答案一模一樣。

F1是模糊匹配，可以理解為機(jī)器答對(duì)了部分內(nèi)容，是根據(jù)模型給出的答案和標(biāo)準(zhǔn)答案之間的重合度計(jì)算出來的

基于SQuAD的排名比拼，也是考察EM和F1兩項(xiàng)成績(jī)。

過去一年，大部分時(shí)間都是科大訊飛團(tuán)隊(duì)和微軟不同團(tuán)隊(duì)的競(jìng)爭(zhēng)。7月微軟登頂，8月科大訊飛首次折桂，9、10兩月基本是微軟天下，11月訊飛再次創(chuàng)出最佳成績(jī)。

然后風(fēng)云突變。先是騰訊突然殺入，并成功在12月底霸榜。然而“好景不長(zhǎng)”，微軟亞洲研究院和阿里巴巴iDST團(tuán)隊(duì)今年初先后發(fā)力，再次創(chuàng)出歷史最好成績(jī)，并且首次“超越人類”——他們?cè)贓M成績(jī)上都擊敗了“人類表現(xiàn)”。

于是就開始有聲音說：人類已經(jīng)在閱讀理解上被機(jī)器超越了。

但也馬上遭遇反駁。

640.webp.jpg

學(xué)界一方面有人指出這種說法過于夸大不嚴(yán)謹(jǐn)。

另一方面也有人將矛頭指向SQuAD數(shù)據(jù)集局限性的問題。

以色列巴伊蘭大學(xué)的著名NLP研究者Yoav Goldberg，他專門寫了個(gè)PPT，列出了SQuAD1.1的三大不足：

受限于可以選擇span來回答的問題；
需要在給定的段落里尋找答案；
段落里保證有答案。

無(wú)獨(dú)有偶，DeepMind也專門發(fā)布了一篇名為NarrativeQA的論文談?wù)摿诉@些問題。

他們認(rèn)為，由于SQuAD問題的答案必須是給定段落中的內(nèi)容，這就導(dǎo)致很多評(píng)估閱讀理解能力應(yīng)該用到的合情合理的問題，根本沒法問。

同時(shí)，這種簡(jiǎn)單的答案通過文檔表面的信號(hào)就能提取出來，對(duì)于無(wú)法用文中短語(yǔ)來回答、或者需要用文中幾個(gè)不連續(xù)短語(yǔ)來回答的問題，SQuAD訓(xùn)練出來的模型無(wú)法泛化。

另外，SQuAD雖然問題很多，但其實(shí)用到的文章又少又短，這就限制了整個(gè)數(shù)據(jù)集詞匯和話題的多樣性。

因此，SQuAD上表現(xiàn)不錯(cuò)的模型，如果要用到更復(fù)雜的問題上，可擴(kuò)展性和適用性都很成問題。

DeepMind的論文說，包括SQuAD在內(nèi)的很多閱讀理解數(shù)據(jù)集都“不能測(cè)試出閱讀理解必要的綜合方面”。

所以此次SQuAD 2.0的更新，一定程度上也可視為對(duì)上述問題的回應(yīng)。

最新排名：猿輔導(dǎo)領(lǐng)隊(duì)中國(guó)軍團(tuán)

當(dāng)然，哪里有AI數(shù)據(jù)集競(jìng)賽，哪里就有不斷刷新榜單的中國(guó)軍團(tuán)。

之前在SQuAD，中國(guó)代表團(tuán)中的常客是科大訊飛、微軟亞洲研究院，不過去年以來，阿里達(dá)摩院旗下的iDST和騰訊也成了大軍中一員，甚至有幾次還是頭號(hào)玩家。

但是，SQuAD 1.1最新榜單里，成為中國(guó)軍團(tuán)領(lǐng)頭羊的團(tuán)隊(duì)，可能會(huì)令你陌生——YUANFUDAO。

沒錯(cuò)，就是那個(gè)主打在線教育的猿輔導(dǎo)。

當(dāng)前猿輔導(dǎo)以EM83.520，F(xiàn)189.612的成績(jī)，微微微落后于Google大腦&CMU團(tuán)隊(duì)，排名全球第二。

640.webp (1).jpg

不過猿輔導(dǎo)雖然是SQuAD的新面孔，但在另一項(xiàng)知名機(jī)器閱讀比賽MSMARCO中，早已霸氣外露。

在3月27日的最新排名中，猿輔導(dǎo)位列MSMARCO全球第一。

640.webp (2).jpg

而且成績(jī)還超過了人類水準(zhǔn)，當(dāng)時(shí)猿輔導(dǎo)團(tuán)隊(duì)的兩項(xiàng)測(cè)試得分為：49.72、48.02。而人類基準(zhǔn)為47、46。

所以現(xiàn)在猿輔導(dǎo)出現(xiàn)在SQuAD 1.1全球玩家前列，實(shí)際也不算特別意外。

可順路一提的是，中國(guó)軍團(tuán)在SQuAD 1.1最新榜單中實(shí)力確實(shí)超強(qiáng)，前十排名中，隨處可見中國(guó)團(tuán)隊(duì)。

640.webp (3).jpg

這才叫：厲害了，我的國(guó)。

本文轉(zhuǎn)自微信公眾號(hào)“量子位”，原標(biāo)題《SQuAD2.0來了！新增5萬(wàn)人工撰寫問題，且不一定有答案》。文章為作者獨(dú)立觀點(diǎn)，不代表芥末堆立場(chǎng)。

1、本文是芥末堆網(wǎng)轉(zhuǎn)載文章，原文：量子位；
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章，只呈現(xiàn)有價(jià)值的內(nèi)容給讀者；
3、如果你也從事教育，并希望被芥末堆報(bào)道，請(qǐng)您填寫信息告訴我們。

來源：量子位

芥末堆商務(wù)合作：王老師 18710003484

機(jī)器閱讀理解數(shù)據(jù)集升級(jí)，猿輔導(dǎo)成全球前列玩家

機(jī)器閱讀理解數(shù)據(jù)集升級(jí)，猿輔導(dǎo)成全球前列玩家

SQuAD 2.0

SQuAD風(fēng)云

最新排名：猿輔導(dǎo)領(lǐng)隊(duì)中國(guó)軍團(tuán)

編輯推薦

機(jī)器閱讀理解數(shù)據(jù)集升級(jí)，猿輔導(dǎo)成全球前列玩家

機(jī)器閱讀理解數(shù)據(jù)集升級(jí)，猿輔導(dǎo)成全球前列玩家

SQuAD 2.0

SQuAD風(fēng)云

最新排名：猿輔導(dǎo)領(lǐng)隊(duì)中國(guó)軍團(tuán)

編輯推薦

機(jī)器閱讀理解數(shù)據(jù)集升級(jí)，猿輔導(dǎo)成全球前列玩家