芥末堆芥末堆

【GET2018】馳聲科技沈來信:AI+K12語言教育還有多少想象空間?

作者:小筱 發(fā)布時間:

【GET2018】馳聲科技沈來信:AI+K12語言教育還有多少想象空間?

作者:小筱 發(fā)布時間:

摘要:人工智能這兩年非常的火熱,但是今年下半年開始有一點降溫。

WechatIMG431.jpg

芥末堆 小筱  11月14日 報道

11月14日,在以“碰撞·演變”為主題的GET2018教育科技大會“K12教育科技企業(yè)的‘軍備競賽’ ”分論壇上,馳聲科技首席科學(xué)家沈來信發(fā)表了題為《AI+K12語言教育,還有多少想象空間》的主題演講。

沈來信從智能語音技術(shù)如何能更好的服務(wù)K12的教學(xué)場景?AI在K12的語言教育里面除了評測還能做什么等問題進行分析,并分享了馳聲科技未來的打算。

以下是演講內(nèi)容實錄:

人工智能這兩年非常的火熱,但是今年下半年開始有一點降溫。大家開始理性的思考,應(yīng)該講人工智能還是像前面幾位嘉賓講的一樣,它僅僅是一個技術(shù),它應(yīng)該是沒有能力取代、顛覆我們的教育的。所以我們要根據(jù)我們的內(nèi)容和技術(shù)結(jié)合在一起,形成一個很好的產(chǎn)品。

屏幕快照 2018-11-14 下午6.29.57.png

馳聲是專注于語音評測的,從2008年開始到現(xiàn)在將近有十年的經(jīng)歷了。我們從2007年的中文的發(fā)音能力評測到2008年無插件聲調(diào)的評測以及英文發(fā)音能力評估,到后面的音素、重音、單詞和句子等等。一直到2013年的時候有相應(yīng)的發(fā)音能力評估以及2015年支持微信和英語表達能力的評估,主要是立足于口語這一塊的評測和反饋。

目前我們服務(wù)的客戶有132個國家和地區(qū),每年會有500萬以上小時的錄音數(shù)據(jù),800萬臺的離線評測的PC、手機、ipad的離線評測。我們服務(wù)的客戶包括像培訓(xùn)行業(yè),出版行業(yè),還有互聯(lián)網(wǎng)智能設(shè)備、智能軟件以及教育、政府機構(gòu)。

我們一直在思考,智能語音技術(shù)如何能更好的服務(wù)K12的教學(xué)場景,所以這里面我們定義了三個場景:正式考試環(huán)境下如何根據(jù)人工定標(biāo)的數(shù)據(jù),它的標(biāo)準(zhǔn)進行自動的評分,我們提供了一個AMS,目前已經(jīng)服務(wù)了多個地區(qū);在考輔里面,有備考和??嫉沫h(huán)境,要輔助校園的測試,提供了一個CESE的評測和考試的標(biāo)準(zhǔn);在課外,包括學(xué)生在家庭里自學(xué)進行的一些單詞、句子、段落、發(fā)音、能力的評估。

AI在K12的語言教育里面除了評測還能做什么?目前我們可以進行打分,性能也是超越了人工的評分,在業(yè)界同行里面具有相當(dāng)?shù)母偁帉哟?。在評測的基礎(chǔ)上還能做什么呢?在客戶使用過程中我們發(fā)現(xiàn),大量用戶發(fā)音的時候總是不斷的犯錯,有的學(xué)生反饋“我的孩子都快讀哭了還讀不到滿分”;有的孩子說“今天讀不到一百分就不睡覺”,因此不斷的讀,但是不斷的犯同樣的錯誤。因此我們提出了這樣一個路線,不光提供評分的情況,而且要給它進行診斷,發(fā)現(xiàn)他在哪個位置發(fā)生了錯誤,以及如何糾正,給出一個反饋和指導(dǎo),我們根據(jù)這個路線進行研發(fā)技術(shù)和產(chǎn)品,真正做到了以評促教、以評促學(xué)。

我們在去年一年主要在兩個方面有開創(chuàng)性的成果,完成了從評測到診斷,到指導(dǎo)反饋的閉環(huán),發(fā)布了兩項開創(chuàng)性的技術(shù)。

發(fā)音糾錯檢錯的功能。目前我們市場上有些可以替換的錯誤,有讀錯的檢測,這也是有產(chǎn)品的,但是有些多讀和漏讀的錯誤現(xiàn)在是沒辦法檢測出來的。因此我們構(gòu)建了一個擴展網(wǎng)絡(luò)的形式,可以支持任意單詞的音素級插入、刪除和替換錯誤。我們這種網(wǎng)絡(luò)是在lab,三個音素的情況下,任何一個音素的前后都可以任意的插入也可以刪除,而且也可以替換這三個錯誤。目前評分的性能是比較高的。

屏幕快照 2018-11-14 下午6.53.51.png

這是一個音素級的分析,match如果發(fā)音錯誤會有相應(yīng)的提示,有相應(yīng)的指導(dǎo),怎么樣正確的發(fā)音。整個評分會更加準(zhǔn)確,以擴展網(wǎng)絡(luò)的形式;診斷更細(xì)致,在音素級別發(fā)現(xiàn)學(xué)生的發(fā)音規(guī)律;指導(dǎo)更有效,可以對他有針對性的進行指導(dǎo),特別是易混淆音的發(fā)現(xiàn),讓用戶不斷的練習(xí),提高在這方面的辨別能力;相應(yīng)的報告進行呈現(xiàn),對他進行綜合能力的評估。這是英文發(fā)音糾錯的閉環(huán)情況。

第二個是我們在評分的時候,在考試系統(tǒng)里和校園版的考輔系統(tǒng)里面發(fā)現(xiàn),以前都是通過定標(biāo)數(shù)據(jù)進行黑盒的評分,用一個邏輯回歸的方式或者是SVR的方式擬合一個分?jǐn)?shù),但是并不清楚分?jǐn)?shù)整個擬合的過程。因為我們對于很開放型的題目,從總分里面分出了四個維度,包括內(nèi)容的得分、發(fā)音的得分、語法的得分、流利度的得分。在內(nèi)容得分里面包含了說的內(nèi)容、主題、關(guān)鍵詞等進行相似度的計算。發(fā)音會根據(jù)發(fā)音的特征,提取他的特征,經(jīng)過一個擬合的公式,擬合出他的發(fā)音來。

得到這四個維度以后我們也不再用以前的,直接是現(xiàn)象級的方式擬合了。用(樂貝格)的方式進行公式化的擬合,讓擬合方式更加透明。目前這個性能遠(yuǎn)遠(yuǎn)高于以前的基于特征直接擬合總分的情況。這個好處是不僅性能提升了,而且為后期打下了一個伏筆。目前我們在這四個維度上都在繼續(xù)往下做,對應(yīng)著診斷和反饋,你的語法錯在什么位置、什么類型,應(yīng)該糾正成什么樣的類型。

屏幕快照 2018-11-14 下午7.09.23.png

這是第二個,里面結(jié)合了研發(fā)的一些技術(shù),詞嵌入技術(shù)、句法解析、GOP算法等等。目前支持開放題型包括口語作文、看圖說話、翻譯等等。最主要的特點是自適應(yīng)的評分標(biāo)準(zhǔn)。不同的地區(qū)對這四個維度有不同的側(cè)重點,根據(jù)定標(biāo)數(shù)據(jù)可以學(xué)習(xí)到在每個維度上的特征、每個維度上的權(quán)重。根據(jù)這個權(quán)重擬合出一個比較適合該地區(qū)的評分標(biāo)準(zhǔn),所以整個擬合過程會更加透明。

我們在語音識別和評測的基礎(chǔ)上會做很多基礎(chǔ)研究,會做一些聲學(xué)模型的改進。主要是為了識別更加準(zhǔn)確,這里面使用了深度學(xué)習(xí)的架構(gòu),包括DNN、TDNN、傳感識網(wǎng)絡(luò)、LSTM、GRU等等,我們增加了一些門機制、注意力網(wǎng)絡(luò)等等,去提升它的性能,這是一個長期要做的工作。

 第二個是在遷移學(xué)習(xí)的應(yīng)用。我們在一個新的地區(qū),在不同的應(yīng)用環(huán)境下如何能夠快速的做當(dāng)?shù)鼗谏倭繕?biāo)注數(shù)據(jù)的聲學(xué)模型的自適應(yīng)呢?就用遷移學(xué)習(xí)的方式完成,用權(quán)重遷移和模型遷移,可以很快速的在一個新地區(qū)完成語音識別的部署。

第三個是數(shù)據(jù)聲學(xué)的篩選,我們以前需要標(biāo)數(shù)據(jù),現(xiàn)在不需要標(biāo)數(shù)據(jù)了,它的文本都不再標(biāo)了。采用數(shù)據(jù)篩選的方式進行處理,這里會基于基于置信度和解碼網(wǎng)絡(luò)的方式篩選數(shù)據(jù)。前期我們在某地區(qū)有三千小時的考試數(shù)據(jù),通過這個網(wǎng)絡(luò)選擇了900小時的很高質(zhì)量的數(shù)據(jù)可以完成該地區(qū)的升學(xué)模型的自訓(xùn)練,可以快速的匹配我們的產(chǎn)品。

第四個我們也會做一些工作,包括音標(biāo)和音素的自動生成,有些產(chǎn)品會需要根據(jù)考生的文本自動的生成對應(yīng)的音素序列,還有出版社希望所有的單詞給出它的音標(biāo)序列。目前采用的是G2P的模型,給出一個文本,自動的這兩方面的生成。這是第三個方面的一些研究。

在最后我們分享一點AI+K12的語言教育,最終我們未來還有哪些打算?通用識別這一塊會繼續(xù)加強.這里會擴展到一個智能問答,在各種環(huán)境下我們希望做一種智能問答的場景.這里面就涉及到通用識別的情況;評分里面有答案的自動生成、自動擴展提高評分性能。

語音的自動分類,我們期望基于不同的地區(qū)、不同的人群自適應(yīng)一個評分標(biāo)準(zhǔn),大中小城市他們之間的評分標(biāo)準(zhǔn)還是略有差異的,我們希望它在本地區(qū)進行同地區(qū)的評比、評測、能力的評估。

虛擬教師的情況,啟用一個一對一的教學(xué)環(huán)境,在對話的過程中進行發(fā)音的、語法的、流利度等方面的指導(dǎo)和反饋,讓學(xué)生進行自由的交互。特別是基于圖像、基于語音、自然語言的三種方式。像作業(yè)幫手一樣,幫助學(xué)生進行課外的輔導(dǎo)和智能問答。

我們希望擴展自適應(yīng)學(xué)習(xí)的架構(gòu),目前我們基于知識圖譜做各個年級,學(xué)生在詞匯、語法、聽力、閱讀和寫作等五個維度上所具有的能力,然后進行橫向和縱向的擴展。

總的來說,還是我們前面說的,人工智能目前也是發(fā)展的比較快速,在圖像、語音、自然語言上都有很大的突破,因此它會給我們帶來很大的動力。但是我們一直認(rèn)為,內(nèi)容是更加接近于我們教育的,讓技術(shù)成為內(nèi)容的好幫手,形成一個好的產(chǎn)品去提高學(xué)生的個性化學(xué)習(xí)以及自適應(yīng)學(xué)習(xí)的基于興趣的、基于單體的學(xué)習(xí)機制,讓我們開發(fā)出比較適應(yīng)于學(xué)生的個性化方式的一種產(chǎn)品出來。我們也希望技術(shù)、產(chǎn)品和內(nèi)容能夠很好的結(jié)合,最后形成一個相應(yīng)的結(jié)果。

點此查看所有嘉賓精彩分享

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 【GET2018】馳聲科技沈來信:AI+K12語言教育還有多少想象空間?分享二維碼