關(guān)注田間地頭和你我的明天：
教育、農(nóng)業(yè)、銀發(fā)

投稿 |
英文站

鑒別真假人工智能，你需要了解的五個技術(shù)

作者：知茗不具發(fā)布時間： 2017-07-21 11:49

鑒別真假人工智能，你需要了解的五個技術(shù)

作者：知茗不具發(fā)布時間： 2017-07-21 11:49

摘要：多輪Free Style對話能做到嗎？

（來源：pixabay）

Google買了Api.ai，Facebook買了wit.ai, 思科買了Mindmeld，微軟買了Maluuba，最近百度買了Kitt.ai，騰訊還有誰可買？

* 下方視頻不可見，請點(diǎn)擊瀏覽器地址欄中盾牌攔截按鈕，允許通過即可查看視頻（愛奇藝）。

先來看看這段視頻，這個機(jī)器人和主持人的對話是不是讓你很興奮？你興奮地太早了。這明顯是事先寫進(jìn)了機(jī)器人程序，并經(jīng)過節(jié)目組彩排實(shí)現(xiàn)的。因?yàn)槎噍咶ree Style對話，以目前的技術(shù)發(fā)展，完全做不到！

要鑒別真假對話人工智能，你必須首先知道這幾個技術(shù)領(lǐng)域：

1、語音轉(zhuǎn)文本：STT

和機(jī)器人對話，它接收到你的語音第一步要做的便是STT。在這個領(lǐng)域里，頂級玩家就是Google, 科大訊飛，百度，微軟這些大公司了。

2、文本處理

語音轉(zhuǎn)成文本之后，機(jī)器如何真正理解，就需要進(jìn)行文本處理了。這就是我們之前聽了不明覺厲的NLP、NLU——自然語言處理/理解的范疇。它的核心功能是把文本里的信息提取，搞清楚詞性，比如動詞、名詞、狀語……然后將這些詞性轉(zhuǎn)換成數(shù)學(xué)處理所需的向量

目前，利用麻省理工大學(xué)、斯坦福大學(xué)的開源工具，文本處理的準(zhǔn)確率可以達(dá)到90%左右。但是如果想提高準(zhǔn)確率，就需要不斷擴(kuò)展的大數(shù)據(jù)，并不斷補(bǔ)充時下熱詞，比如“怪蜀黍”、“安利”、“free style”……這種NLP的先進(jìn)技術(shù)在中英文處理方面，成效尤為明顯。大多數(shù)的人工智能公司都通過自己的標(biāo)記數(shù)據(jù)構(gòu)建了這項(xiàng)技術(shù)。工程師們常用的的開源平臺有NLPIR，Spacy，NLTK，Stanford Core NLP，Textblob，Gensim。悄悄告訴大家，其實(shí)很多國內(nèi)所謂搞NLP的公司，沒準(zhǔn)就用了上面某平臺的技術(shù)呢，只是換了個殼而已~~

但是做完文本分析，了解了用戶句子中的主謂賓結(jié)構(gòu)后，發(fā)現(xiàn)這些信息在很大程度上并不相關(guān)聯(lián)，機(jī)器人不知道它具體要表達(dá)什么意思，這不是很糟心嗎？畢竟機(jī)器人最終目的是要捕捉說話者的意圖并給予反饋的。要用這些數(shù)據(jù)創(chuàng)建對話更是難上加難。因此接下來就是整個對話系統(tǒng)里技術(shù)含量最高的部分。

3、利用機(jī)器學(xué)習(xí)/深度學(xué)習(xí)分辨文本意圖

這個階段是對文本表達(dá)的“意圖”進(jìn)行分類，核心是利用文本提取的信息去確認(rèn)“中心思想”。比如，在“我想坐下午3點(diǎn)的飛機(jī)去東京”這句話里，文本的“形式”包括時間：下午3點(diǎn)，目的地東京，起點(diǎn)為現(xiàn)在的定位城市，其“意圖”則是預(yù)定航班。

做這項(xiàng)工作的工具非常多，它們通常利用Python的科學(xué)計(jì)算工具包，例如scikit-learn，或在tensorflow上構(gòu)建深度學(xué)習(xí)模型。當(dāng)標(biāo)記數(shù)據(jù)輸入系統(tǒng)后，它們則被用來訓(xùn)練機(jī)器，以更好地提取文本“意圖”或“形式”。你可能問題來了，判斷這個“意圖”和“形式”有那么復(fù)雜么？還需要機(jī)器學(xué)習(xí)和深度學(xué)習(xí)？是的，因?yàn)槿祟愓Z言很復(fù)雜，相同意圖有各種表達(dá)方式。讓系統(tǒng)辨析語法，盡可能多地分辨出相同意圖不同的表達(dá)方式，這種工作要花掉開發(fā)者大量的時間。人工智能在此的本領(lǐng)在于，同樣是問時間，無論是6種問法還是10種問法，機(jī)器可以通過過往的數(shù)據(jù)學(xué)習(xí)，分辨出你的目的都是“查詢時間”。

4、對話管理

一旦了解到句子的“意圖”，機(jī)器人下一步就是選擇對話路徑：是要調(diào)用應(yīng)用程序接口API去獲取維基百科信息，還是從數(shù)據(jù)庫里調(diào)取問題的答案，或者利用之前深度學(xué)習(xí)的數(shù)據(jù)生成新的答案，或者是基于對話樹中所處的枝干，做出基本的對話反饋。

5、最后一步，就是將可以正確反饋給用戶的文本轉(zhuǎn)換成語音，說出來，即TTS。

從接收信息、處理信息到反饋信息這五步下來，才完成了機(jī)器對話的單輪效果。但在這五步里，最關(guān)鍵、通常也是最難的部分就是第三和第四步。因?yàn)檫@需要大量的數(shù)據(jù)及手工作業(yè)。比如第三步需要大量經(jīng)過分辨的“意圖”和“形式”以及標(biāo)記數(shù)據(jù)。第四步要求手動編程構(gòu)建對話框架。幾乎每一個科技巨頭都希望扎進(jìn)這兩個領(lǐng)域里做突破。這也是為什么Google買了Api.ai，F(xiàn)acebook購買了wit.ai, 思科買了Mindmeld，微軟買了Maluuba,以及最近百度買了Kitt.ai。

雖然這些平臺的服務(wù)形式有所不同，但基本上都向開發(fā)者提供了語音識別和機(jī)器學(xué)習(xí)服務(wù)。該服務(wù)能將語音命令轉(zhuǎn)換為文字，并把這些文字轉(zhuǎn)化為可操作的數(shù)據(jù)。同時，它們可以支持簡單的對話管理，為程序員畫對話樹草圖提供了非常簡單有效的工具。大公司為了在第三和第四步階段爭奪數(shù)據(jù)，自然會購買這些為開發(fā)者提供簡便工具的公司，以此獲取大量數(shù)據(jù)。數(shù)據(jù)是一方面，大公司還希望在“聽清”、“聽懂”基礎(chǔ)上，通過收購這些開源平臺增強(qiáng)對生活中復(fù)雜指令的識別能力。畢竟各行各業(yè)都有需要構(gòu)建人機(jī)交互的開發(fā)者，他們會在這些平臺上聚集大量的細(xì)分場景數(shù)據(jù)。

對于思科這樣的公司，如果加大軟件投入，那么AI一定是構(gòu)建未來產(chǎn)品競爭力的基礎(chǔ)。收購MindMeld之后，思科將在MindMeld團(tuán)隊(duì)基礎(chǔ)上成立集團(tuán)層面的認(rèn)知協(xié)作團(tuán)隊(duì)。

那么Facebook收購wit.ai的理由也和業(yè)務(wù)極大相關(guān)。Wit.ai將幫助Facebook提供語音控制工具，為Messenger提供語音到文本的輸入支持。Facebook不是說了么，自己的使命是：通過超群非凡的體驗(yàn)讓平臺上13億用戶更好的連接在一起。那么通過技術(shù)手段理解自然語言一定是這幅藍(lán)圖里中濃墨重彩的一筆。

有人說，wit.ai這樣的公司在NLU民主化方面做出了重大貢獻(xiàn)。這是不假，不把這塊難啃的骨頭干掉，機(jī)器對話的構(gòu)建是無法完成的。

看了這么多，你應(yīng)該明白想讓機(jī)器張嘴說一句正確的話，有多難。這還只是一句，F(xiàn)ree Style 的多輪暢談目前就更別想了。不過，在細(xì)分場景下，足夠干凈的數(shù)據(jù)，足夠結(jié)構(gòu)化的語境，是可以訓(xùn)練出相當(dāng)聰明的機(jī)器人的。比如教育場景下，對話口語教學(xué)機(jī)器人，就是一個不錯的嘗試方向。期待教育行業(yè)里有識之士能夠在此方面有所突破。

本文來自投稿，作者知茗不具，從事教育培訓(xùn)行業(yè)報道和創(chuàng)投服務(wù)6年，長期深入關(guān)注行業(yè)內(nèi)部動態(tài)和周邊產(chǎn)業(yè)發(fā)展，目前聚焦人工智能在語言學(xué)習(xí)領(lǐng)域的應(yīng)用，曾擔(dān)任創(chuàng)業(yè)黑馬公司高管、牛投網(wǎng)總裁等職務(wù)。感謝開豆英語首席科學(xué)家、約翰霍普金斯大學(xué)Dhonam Pemba博士對本文的指導(dǎo)。

1、本文是芥末堆網(wǎng)原創(chuàng)文章，轉(zhuǎn)載可點(diǎn)擊芥末堆內(nèi)容合作了解詳情，未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載，違者必究；
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章，只呈現(xiàn)有價值的內(nèi)容給讀者；
3、如果你也從事教育，并希望被芥末堆報道，請您填寫信息告訴我們。

來源：芥末堆

芥末堆商務(wù)合作：王老師 18710003484

編輯推薦

反饋