(來源:pixabay)
Google買了Api.ai,Facebook買了wit.ai, 思科買了Mindmeld,微軟買了Maluuba,最近百度買了Kitt.ai,騰訊還有誰可買?
* 下方視頻不可見,請點(diǎn)擊瀏覽器地址欄中盾牌攔截按鈕,允許通過即可查看視頻(愛奇藝)。
先來看看這段視頻,這個機(jī)器人和主持人的對話是不是讓你很興奮?你興奮地太早了。這明顯是事先寫進(jìn)了機(jī)器人程序,并經(jīng)過節(jié)目組彩排實(shí)現(xiàn)的。因?yàn)槎噍咶ree Style對話,以目前的技術(shù)發(fā)展,完全做不到!
要鑒別真假對話人工智能,你必須首先知道這幾個技術(shù)領(lǐng)域:
1、語音轉(zhuǎn)文本:STT
和機(jī)器人對話,它接收到你的語音第一步要做的便是STT。在這個領(lǐng)域里,頂級玩家就是Google, 科大訊飛,百度,微軟這些大公司了。
2、文本處理
語音轉(zhuǎn)成文本之后,機(jī)器如何真正理解,就需要進(jìn)行文本處理了。這就是我們之前聽了不明覺厲的NLP、NLU——自然語言處理/理解的范疇。它的核心功能是把文本里的信息提取,搞清楚詞性,比如動詞、名詞、狀語……然后將這些詞性轉(zhuǎn)換成數(shù)學(xué)處理所需的向量
目前,利用麻省理工大學(xué)、斯坦福大學(xué)的開源工具,文本處理的準(zhǔn)確率可以達(dá)到90%左右。但是如果想提高準(zhǔn)確率,就需要不斷擴(kuò)展的大數(shù)據(jù),并不斷補(bǔ)充時下熱詞,比如“怪蜀黍”、“安利”、“free style”……這種NLP的先進(jìn)技術(shù)在中英文處理方面,成效尤為明顯。大多數(shù)的人工智能公司都通過自己的標(biāo)記數(shù)據(jù)構(gòu)建了這項(xiàng)技術(shù)。工程師們常用的的開源平臺有NLPIR,Spacy,NLTK,Stanford Core NLP,Textblob,Gensim。悄悄告訴大家,其實(shí)很多國內(nèi)所謂搞NLP的公司,沒準(zhǔn)就用了上面某平臺的技術(shù)呢,只是換了個殼而已~~
但是做完文本分析,了解了用戶句子中的主謂賓結(jié)構(gòu)后,發(fā)現(xiàn)這些信息在很大程度上并不相關(guān)聯(lián),機(jī)器人不知道它具體要表達(dá)什么意思,這不是很糟心嗎?畢竟機(jī)器人最終目的是要捕捉說話者的意圖并給予反饋的。要用這些數(shù)據(jù)創(chuàng)建對話更是難上加難。因此接下來就是整個對話系統(tǒng)里技術(shù)含量最高的部分。
3、利用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)分辨文本意圖
這個階段是對文本表達(dá)的“意圖”進(jìn)行分類,核心是利用文本提取的信息去確認(rèn)“中心思想”。比如,在“我想坐下午3點(diǎn)的飛機(jī)去東京”這句話里,文本的“形式”包括時間:下午3點(diǎn),目的地東京,起點(diǎn)為現(xiàn)在的定位城市,其“意圖”則是預(yù)定航班。
做這項(xiàng)工作的工具非常多,它們通常利用Python的科學(xué)計(jì)算工具包,例如scikit-learn,或在tensorflow上構(gòu)建深度學(xué)習(xí)模型。當(dāng)標(biāo)記數(shù)據(jù)輸入系統(tǒng)后,它們則被用來訓(xùn)練機(jī)器,以更好地提取文本“意圖”或“形式”。你可能問題來了,判斷這個“意圖”和“形式”有那么復(fù)雜么?還需要機(jī)器學(xué)習(xí)和深度學(xué)習(xí)?是的,因?yàn)槿祟愓Z言很復(fù)雜,相同意圖有各種表達(dá)方式。讓系統(tǒng)辨析語法,盡可能多地分辨出相同意圖不同的表達(dá)方式,這種工作要花掉開發(fā)者大量的時間。人工智能在此的本領(lǐng)在于,同樣是問時間,無論是6種問法還是10種問法,機(jī)器可以通過過往的數(shù)據(jù)學(xué)習(xí),分辨出你的目的都是“查詢時間”。
4、對話管理
一旦了解到句子的“意圖”,機(jī)器人下一步就是選擇對話路徑:是要調(diào)用應(yīng)用程序接口API去獲取維基百科信息,還是從數(shù)據(jù)庫里調(diào)取問題的答案,或者利用之前深度學(xué)習(xí)的數(shù)據(jù)生成新的答案,或者是基于對話樹中所處的枝干,做出基本的對話反饋。
5、最后一步,就是將可以正確反饋給用戶的文本轉(zhuǎn)換成語音,說出來,即TTS。
從接收信息、處理信息到反饋信息這五步下來,才完成了機(jī)器對話的單輪效果。但在這五步里,最關(guān)鍵、通常也是最難的部分就是第三和第四步。因?yàn)檫@需要大量的數(shù)據(jù)及手工作業(yè)。比如第三步需要大量經(jīng)過分辨的“意圖”和“形式”以及標(biāo)記數(shù)據(jù)。第四步要求手動編程構(gòu)建對話框架。幾乎每一個科技巨頭都希望扎進(jìn)這兩個領(lǐng)域里做突破。這也是為什么Google買了Api.ai,F(xiàn)acebook購買了wit.ai, 思科買了Mindmeld,微軟買了Maluuba,以及最近百度買了Kitt.ai。
雖然這些平臺的服務(wù)形式有所不同,但基本上都向開發(fā)者提供了語音識別和機(jī)器學(xué)習(xí)服務(wù)。該服務(wù)能將語音命令轉(zhuǎn)換為文字,并把這些文字轉(zhuǎn)化為可操作的數(shù)據(jù)。同時,它們可以支持簡單的對話管理,為程序員畫對話樹草圖提供了非常簡單有效的工具。大公司為了在第三和第四步階段爭奪數(shù)據(jù),自然會購買這些為開發(fā)者提供簡便工具的公司,以此獲取大量數(shù)據(jù)。數(shù)據(jù)是一方面,大公司還希望在“聽清”、“聽懂”基礎(chǔ)上,通過收購這些開源平臺增強(qiáng)對生活中復(fù)雜指令的識別能力。畢竟各行各業(yè)都有需要構(gòu)建人機(jī)交互的開發(fā)者,他們會在這些平臺上聚集大量的細(xì)分場景數(shù)據(jù)。
對于思科這樣的公司,如果加大軟件投入,那么AI一定是構(gòu)建未來產(chǎn)品競爭力的基礎(chǔ)。收購MindMeld之后,思科將在MindMeld團(tuán)隊(duì)基礎(chǔ)上成立集團(tuán)層面的認(rèn)知協(xié)作團(tuán)隊(duì)。
那么Facebook收購wit.ai的理由也和業(yè)務(wù)極大相關(guān)。Wit.ai將幫助Facebook提供語音控制工具,為Messenger提供語音到文本的輸入支持。Facebook不是說了么,自己的使命是:通過超群非凡的體驗(yàn)讓平臺上13億用戶更好的連接在一起。那么通過技術(shù)手段理解自然語言一定是這幅藍(lán)圖里中濃墨重彩的一筆。
有人說,wit.ai這樣的公司在NLU民主化方面做出了重大貢獻(xiàn)。這是不假,不把這塊難啃的骨頭干掉,機(jī)器對話的構(gòu)建是無法完成的。
看了這么多,你應(yīng)該明白想讓機(jī)器張嘴說一句正確的話,有多難。這還只是一句,F(xiàn)ree Style 的多輪暢談目前就更別想了。不過,在細(xì)分場景下,足夠干凈的數(shù)據(jù),足夠結(jié)構(gòu)化的語境,是可以訓(xùn)練出相當(dāng)聰明的機(jī)器人的。比如教育場景下,對話口語教學(xué)機(jī)器人,就是一個不錯的嘗試方向。期待教育行業(yè)里有識之士能夠在此方面有所突破。
本文來自投稿,作者知茗不具,從事教育培訓(xùn)行業(yè)報道和創(chuàng)投服務(wù)6年,長期深入關(guān)注行業(yè)內(nèi)部動態(tài)和周邊產(chǎn)業(yè)發(fā)展,目前聚焦人工智能在語言學(xué)習(xí)領(lǐng)域的應(yīng)用,曾擔(dān)任創(chuàng)業(yè)黑馬公司高管、牛投網(wǎng)總裁等職務(wù)。感謝開豆英語首席科學(xué)家、約翰霍普金斯大學(xué)Dhonam Pemba博士對本文的指導(dǎo)。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。