芥末堆芥末堆

口語APP是怎么聽出你的“中式英語”的?多鄰國的工程師現(xiàn)身說法

作者:阿槑 發(fā)布時間:

口語APP是怎么聽出你的“中式英語”的?多鄰國的工程師現(xiàn)身說法

作者:阿槑 發(fā)布時間:

摘要:算法也不是越準(zhǔn)確越好,需要找到那個微妙的平衡點。

“one car come, one car go, two car pengpeng, one car die.” 這樣的典型“Chinglish”(中式英語)無論是中國人或是外國人看了都不禁會心一笑。

近些年,亞洲人的英語發(fā)音一直是美國影視劇中的吐槽對象,但隨著技術(shù)的進步,越來越多的人可以借助電子設(shè)備來糾正測評自己的口語了。

目前,語音識別和測評技術(shù)目前廣泛地應(yīng)用在考試、輔助教學(xué)以及外語學(xué)習(xí)產(chǎn)品中,Rosseta Stone、多鄰國、英語流利說等產(chǎn)品的誕生與發(fā)展跟語音技術(shù)密不可分。這次,多鄰國的語音技術(shù)工程師秦龍來分享一下他們是如何利用語音技術(shù)做英語學(xué)習(xí)產(chǎn)品的。

語言教學(xué)中的語音語言技術(shù)在學(xué)術(shù)界一般稱為CALL系統(tǒng)(computer aided language learning),具體到語音識別技術(shù),主要是兩方面的應(yīng)用:

1)對語音的流暢度自然度進行打分,通俗的說就是評測用戶的發(fā)音和母語說話人的接近程度。

2)識別出語言后,對語言組織進行后續(xù)的檢測。

語音技術(shù)如何幫助你學(xué)外語?

具體到多鄰國的產(chǎn)品中,語音技術(shù)多用于以下兩種學(xué)習(xí)場景:

一般來說,口語學(xué)習(xí)需要鍛煉兩方面的內(nèi)容,一個是發(fā)音,另外一個是自我組織語言。因此,第一種學(xué)習(xí)場景,也是最常見的就是大聲朗讀。用戶根據(jù)提供的示例錄音,重復(fù)一段簡短的句子,然后系統(tǒng)通過語音識別技術(shù)自動的對用戶語音的流暢度自然度進行打分。同時在Chrome瀏覽器下,還會為用戶提供一些發(fā)音反饋,比如哪些詞讀的比較好,哪些詞的發(fā)音不夠準(zhǔn)確等。

第二種練習(xí)項目是語音翻譯,用戶往往不僅需要通過語音作答,而且需要自己來組織語言。在這個練習(xí)中,用戶看到的是母語,需要自己組織語言將這句話翻譯成正在學(xué)習(xí)的語言,并將其朗讀出來。在這一應(yīng)用場景下,首先需要通過語音識別技術(shù)將用戶的語音識別成文字,然后再通過自然語言處理技術(shù)來分析用戶的用詞是否準(zhǔn)確,語法是否規(guī)范,以及內(nèi)容是否貼切。目前這項練習(xí)僅支持Chrome瀏覽器,近期將會加入app。

顯而易見,相比于大聲朗讀,第二種應(yīng)用場景更為困難,也面臨著更多的技術(shù)難點。

念錯了?那就多念幾遍

要幫助用戶更高效地學(xué)習(xí),涉及到的不僅僅是語音技術(shù),更為重要的是機器學(xué)習(xí)和算法,秦龍說,“當(dāng)用戶使用多鄰國進行口語練習(xí)時,我們會讓用戶更多的練習(xí)那些他們說錯的詞,少練習(xí)掌握的很好的詞,提高學(xué)習(xí)效率。”

根據(jù)用戶對于具體詞匯的錯誤率、熟悉程度等因素進行考量,由機器學(xué)習(xí)算法來決定在每個課程中用戶所看到的不同的習(xí)題。多鄰國在最近宣布4500萬美元融資的公告中也提到,融資之后會將重點放在機器學(xué)習(xí)和自適應(yīng)課程的開發(fā)上。

目前的語言學(xué)習(xí)平臺還有諸多不完美之處,比如機器有時會在評判用戶語音時犯錯誤,給出的反饋比較少或者不準(zhǔn)確,或者是學(xué)習(xí)材料過于單調(diào)、枯燥、缺乏變化。多鄰國正在從技術(shù)和課程雙方面去改進:一是通過算法提供更細致的反饋,另一方面是增加練習(xí)素材的多樣化,為用戶提供在不同語境下練習(xí)口語的機會。

算法并不是越準(zhǔn)確越好,需要加入“人性化”的元素

多鄰國在全球有1億用戶,積累了海量的用戶學(xué)習(xí)行為和數(shù)據(jù),在工程師們不斷改進提高評測算法的時候,有一個很有趣的發(fā)現(xiàn)?!坝袝r候,我們覺得算法更加準(zhǔn)確了,但用戶的活躍度卻降低了,這讓我們百思不得其解。后來,通過對數(shù)據(jù)的分析,我們發(fā)現(xiàn),由于新算要求用戶對發(fā)音更加準(zhǔn)確,也就是說口語練習(xí)更難了,這導(dǎo)致用戶語音訓(xùn)練的通過率降低,從而影響了用戶的活躍度。也就是說,用戶往往希望有更準(zhǔn)確的算法,同時,又不希望練習(xí)變難。打個比方就是,學(xué)生希望考試的時候老師的評卷準(zhǔn)確給出的反饋好,但是題不能難,要避免讓學(xué)生掛掉這科?!彼缘鋵嵥惴ㄒ膊皇窃綔?zhǔn)確越好,需要找到那個微妙的平衡點。

跟著機器學(xué)習(xí)口語有助于部分用戶克服“不敢說”的障礙,而且有傳統(tǒng)的教學(xué)模式難以比擬的便捷性。但是作為語音技術(shù)工程師,秦龍并不認(rèn)為跟機器學(xué)習(xí)口語會完全代替人類。機器可以很好地識別、理解比較結(jié)構(gòu)化的語音語言,根據(jù)這個特點,工程師能設(shè)計出很好的口語學(xué)習(xí)方法。但是在我們使用語言的時候,會有很多非結(jié)構(gòu)化,不符合語法甚至可以說是“錯誤”的表達方式。比如,在日常人與人的對話中,會有很多有很多停頓、重復(fù)、語氣詞?;蛘呤褂煤芏啻~來指代某個人或者某個事情,目前的語音技術(shù)和機器學(xué)習(xí)技術(shù)還難以解決前面提到的這些問題。不過在未來,每個人也許都會有一個計算機虛擬助手,幫我們進行包括語言學(xué)習(xí)在內(nèi)的很多活動。就像電影《Her》里一樣,每個人都有一個「OS1」。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 口語APP是怎么聽出你的“中式英語”的?多鄰國的工程師現(xiàn)身說法分享二維碼