芥末堆芥末堆

注意,有場景的公司正在拿起AI武器

作者:量子位 發(fā)布時間:

注意,有場景的公司正在拿起AI武器

作者:量子位 發(fā)布時間:

摘要:一起教育科技的AI變革。

joanna-kosinska-129039-unsplash (1).jpg

圖片來源:Unsplash

潮水轉關,并非毫無征兆。

不知道AI落地趨勢變化是否已讓你感知?2018年下半年開始,技術先發(fā)正在被產(chǎn)品、場景為王替代。

之前,打造通用AI技術公司風頭無兩。如今,垂直化場景公司拿起AI武器,數(shù)據(jù)和場景加速轉換為勢能。

今天要講的是一樁在線教育領域的AI變革。

從“一起作業(yè)”到“一起教育科技”

一起教育科技,之前更為大眾知的是一起作業(yè),一家主打K12進校的教育公司,提供的是互聯(lián)網(wǎng)在線作業(yè)和練習系統(tǒng)。

從2018年起,升級更名,以一起教育科技行世。

微信圖片_20190412152653.jpg

名頭更大,意味著想得更大、做得更多,更多科技賦能產(chǎn)業(yè)。

而這個科技,最核心的就是AI,唯有AI,才能實現(xiàn)他們智能化教育的目標。

實際上,在E輪2.5億美元融資之前,他們就已于2017年年末組建了AI團隊,并從微信團隊挖來負責人。

即便“一起”搞AI算不上早,但也并非沒有優(yōu)勢。

歷經(jīng)7年創(chuàng)業(yè),用戶規(guī)模7900萬,K12領域的數(shù)據(jù)資源更是壁壘深厚。
這不,牛刀初試便鋒芒外露。

去年下半年,他們對外推出一款AI口語評測引擎,用于K12領域口語測評打分。

之前,行業(yè)內(nèi)有技術領域出發(fā)的先發(fā)產(chǎn)品,涵蓋訊飛、思必馳、云知聲騰訊等玩家。

但一起這個引擎,一出手便展現(xiàn)場景公司威力——在橫向對比中,擊敗所有同類項。

How?

亮結果

一起教育科技展示了由業(yè)內(nèi)教育專家組織的評測結果。

評測涉及兩個方面,分別是句子層面和單詞層面,核心指標是分數(shù)分布和分差分布。

分數(shù)分布指的是口語評測引擎為樣本打分的情況。分差分布代表的是引擎打分與人類專家打分的差。

在分數(shù)分布上,一起教育科技的引擎在單詞和句子上的打分,與其他各家更趨近人類專家的水平。

微信圖片_20190412152801.jpg

微信圖片_20190412152806.jpg

分差分布上,一起教育科技自研的引擎表現(xiàn)也很亮眼。

在單詞層面,分差在0~1之間的概率近70%。

微信圖片_20190412152837.jpg

句子層面上,分差在0~1之間的概率達到80%,比排在其后的競品高出10個百分點。

微信圖片_20190412152858.jpg

一起教育科技透露,整個評測過程實際也是“人機大戰(zhàn)”:

  • 首先是從數(shù)據(jù)庫中隨即抽取1000個語音樣本,有詞,有短語,也有句子。

  • 其次邀請兩位人類專家雙盲交叉評分(8分制),并力爭一致性在90%以上。

  • 同時進行的還有各家AI對該評測數(shù)據(jù)的打分。

  • 最后比較AI給分和人類專家給分的分差——分差越小,AI引擎越好。
    于是有了這份結果。

為什么要這樣測?

一起教育科技方面解釋,一方面是基于K12教學大綱進行考察,要涵蓋音素準確率、內(nèi)容完整度、流利度、重音、 韻律(語調(diào),停頓)等。

微信圖片_20190412153006.jpg

另一方面符合國人學英語的習慣,如果AI引擎直接按照標準國際口語打造,最后就會與人類專家打分出入很大——國情和語言環(huán)境所限,AI評測首要問題是“聽懂”,才能精確打分。

這實際上并非輕而易舉。

達成如此結果,背后不僅有一支類似教AlphaGo下棋的圍棋國手們,也有一支50多人規(guī)模的AI作戰(zhàn)團,且整個打造過程歷時2年之久。

為什么這么久?

模型打造挑戰(zhàn)

口語測評與語音識別等一般的機器學習問題不同,是一個主觀性的問題,需要考慮到評分的標準,以及評分的一致性。

這對于模型的穩(wěn)定性提出了更高的要求。尤其是在作業(yè)和考試場景,對打分的準確率要求更高。

種種因素決定,自研口語測評引擎,并不能簡單地將通用聲學模型搬來套用,而是要針對具體場景構建模型。

相對于其他各家來說,一起教育科技的口語測評引擎,不論是在模型上、標準上,還是在訓練數(shù)據(jù)上,都更加專注于K12教育場景。

口語測評的任務中,語音對應的文字,引擎是事先知道的,其關鍵任務就是給用戶的語音做一個精確的評價。

通常情況,語音識別的聲學模型,都是基于音素(phoneme)來構建的。

但進行口語測評,對用戶的發(fā)音要求比較高,如果單獨看某些音素(清輔音),并不能準確給出評估。

一起教育科技的解決方案是,構建基于音素和音節(jié)(syllable)的聲學模型,對于無法單獨評估的因素,將其置于音節(jié)之中,結合場景給出評估。

微信圖片_20190412153111.jpg

在評估發(fā)音準確度方面,業(yè)界通常采用的是GOP (Goodness of Pronunciation) 算法。

這一算法的核心,是計算用戶發(fā)出的語音與系統(tǒng)已知文字對應的可能性??赡苄栽礁?,發(fā)音就越準確。

這個可能性,就是系統(tǒng)已知發(fā)音和未知發(fā)音的似然比(likelihood ratio)。

似然比的計算,通?;诼晫W模型。大部分成熟的聲學模型,使用的訓練數(shù)據(jù)通常都是都是英語為母語的人的錄音。

對于發(fā)音水平較好的學生,GOP算法能夠給出一個相對準確的評估。

但對于發(fā)音較差、中式英語痕跡很重的學生,其似然比區(qū)分度很低,這個算法就很難奏效。

對于這個問題,一起教育科技采用兩個解決辦法。

微信圖片_20190412153135.jpg

首先是訓練模型的數(shù)據(jù),來自于自己收集的作業(yè)數(shù)據(jù),經(jīng)由教研團隊仔細標注。目前,一起教育科技已經(jīng)積累了萬小時級別的口語數(shù)據(jù)集。

其次是評分標準,只是將GOP算法作為其中的一個維度。在構建評分決策樹中,集成了更多其他符合K12教學場景的特征。

比如長元音和短元音應該怎么去分析、音素錯誤的位置對評分產(chǎn)生什么樣的影響,等等。

這些特征,由教研團隊從教學大綱和口考標準中提煉而出,既符合教學目標,技術上也有可行性。

評分標準更加細化,也減少了模型訓練時對數(shù)據(jù)的需求。目前,口語測評引擎已經(jīng)融入到了一起教育科技的產(chǎn)品之中。

微信圖片_20190412153219.jpg

一起教育科技介紹稱,引擎每天承接的請求量達到億級,用戶對于引擎打分不準的建議率在萬分之幾的水平。

將AI融入“血液”

不過,這只是序幕而已。

一起教育科技的壯志雄心,不止于口語測評。2017年,“一起”從微信模式識別中心挖來饒豐組建AI團隊,當時就有短中長規(guī)劃。

第一步,先從語音是識別入手,解決英語學科測評打分的老師痛點。

第二步,圍繞圖像領域展開,推出口算拍照等產(chǎn)品,且對數(shù)學試題中的“邏輯”能有清晰理解。

微信圖片_20190412153300.jpg

此外,還有推薦引擎機制,通過智能化推薦方式,實現(xiàn)千人千面、因材施教,讓學生在測試中不斷完善短板。

目前,一起教育科技已經(jīng)組建起一只能打好用的AI團隊。

未來目標是能夠打造完美AI助教,讓AI真正實現(xiàn)賦能教育。

優(yōu)勢也很明顯,在“一起”,教育場景能不斷給AI模型反饋,而AI則能第一時間落地作用于教育,循環(huán)往復,生生不息。

當然,對于一起教育科技來說,AI只是“科技”的一部分。

去年第四季度,他們從奇虎360挖來前搜索事業(yè)部總經(jīng)理楊康擔任技術總負責人,負責將公司進一步科技化,打造K12智能教育平臺。

微信圖片_20190412153351.jpg

△楊康

這位前360的No.53號員工,擁有十多年的研發(fā)及業(yè)務管理經(jīng)驗。

他說,一起教育科技,教育在前科技在后,“一起”的核心著力始終是教育,但科技會是最佳手段,能夠幫助教育不斷提升效率降低成本。

除了AI團隊,一起教育科技還有大數(shù)據(jù)等團隊,希望把7年深耕教育獲得的數(shù)據(jù)更好歸因、分類,然后更好使用。

在楊康看來,目前教育最大問題并不是內(nèi)容匱乏,而是很難給每個孩子找到適合自己情況的學習方式與思維方式。

AI與大數(shù)據(jù)的結合,能夠很好地解決這個問題,這能夠為每個學生打造一個“私人助教”,而 非“大班制教學”走馬觀花式學習。

在他們內(nèi)部,首先是數(shù)據(jù)帶動信息化,其次是AI等模型引擎作用其中,最后以智能化產(chǎn)品發(fā)揮更大價值。

毫無疑問,這也會是整個教育行業(yè)的趨勢。

這個趨勢已經(jīng)開始,這個趨勢不會停止。

本文轉載自微信公眾號"量子位(ID:QbiAl)"。文章為作者獨立觀點,不代表芥末堆立場,轉載請聯(lián)系原作者。

1、本文是 芥末堆網(wǎng)轉載文章,原文:量子位;
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源:量子位
芥末堆商務合作:王老師 18710003484
  • 注意,有場景的公司正在拿起AI武器分享二維碼