(崔宏禹分享現(xiàn)場)
11月16日,在GET2017教育科技大會“人工智能論壇”上,微軟中國技術(shù)總監(jiān)崔宏禹分享了他對深度學習的理解,并介紹了微軟在人工智能領域研究的三個方向。微軟1000多位工程師開發(fā)了一些認知服務與機器人框架,向所有開發(fā)者開放。
崔宏禹說,機器學習不是一個新課題,它是以統(tǒng)計理論為基礎的學科?;诂F(xiàn)有、過去大批量的數(shù)據(jù),通過統(tǒng)計學原理找到數(shù)據(jù)背后的規(guī)律。認知服務實際上是機器深度學習的結(jié)果。他介紹微軟的認知服務包括視覺、語言、語音、搜索知識。
他特別強調(diào)視覺在個性化學習的重要性。在機器與人的交互過程中,通過視覺分析識別當前學習者處于的情緒狀態(tài),及時給教學者反饋。但他也坦然,五六十年代神經(jīng)腦科學就在對神經(jīng)網(wǎng)絡進行研究,但至今沒有大的突破。在神經(jīng)腦科學沒有突破之前,基于大量數(shù)據(jù)做視覺和情緒識別分析仍然很難。崔宏禹認為,這依賴于所有科學家,包括計算科學、數(shù)據(jù)科學、神經(jīng)科學、腦科學一起努力,才能保證未來深度學習的過程。
以下是崔宏禹演講實錄(芥末堆略有刪減):
微軟的認知服務和機器人框架
各位大家早上好,非常榮新今天能有機會在GET大會上給大家做一個介紹,從技術(shù)和平臺角度來看,我們在人工智能這兩年在做什么,人工智能到底能給我們帶來一些什么樣的改變,或者說人工智能在現(xiàn)階段的研究過程當中,還存在哪些不足。我們可以把這些技術(shù)怎么更好用到教育和產(chǎn)業(yè)當中去。
我們現(xiàn)在講人工智能,目前為止我認為都還在機器智能這樣一個階段。是基于大量數(shù)據(jù),以及所謂深度學習算法基礎之上出來的機器智能的說法。為什么我特別說,我不愿意過分的強調(diào)人工智能。因為從50年代,人對神經(jīng)科學的認知一直到現(xiàn)在,沒有特別理論上大的突破。所以就造成了我們對整個人工智能領域一些相關產(chǎn)業(yè)上可能會有一點誤解。但這不妨礙我們在人工智能領域有一些現(xiàn)成的內(nèi)容和一些現(xiàn)成的場景出現(xiàn)。
微軟人工智能所謂三重境界,是我們超過1000多位工程師所承載的這樣一個平臺,給大家提供的福利。很多人在講人工智能的時候都在說一個問題,人工智能是很高大上的東西,我們到底該怎么用,我們能不能用。對今天在座的很多老師和很多學生,還有很多教育產(chǎn)業(yè)從業(yè)者來說,人工智能很高大上的東西,怎樣盡快地享受到人工智能給我們帶來的福利。
這張圖是模仿整個人的思維構(gòu)造。具體就是人的“身體發(fā)膚”,包括我們的神經(jīng)、血液和所有的器官。在這個基礎之上,我們才有認知,常用的聽說讀寫看。但是人還有另外一些感覺叫認知,我能夠知道你這會兒是高興的,我知道你是沮喪的,你這會兒可能是無所謂的表情。所以在這個基礎上我們要有認知。認知基礎之上,我們抽取到自然界和社會當中所有的信息以后、感知到信息以后,我們才有一些創(chuàng)造,這是完全基于數(shù)據(jù)的創(chuàng)造。
在數(shù)據(jù)的基礎之上,我們通過加工產(chǎn)生一些新的智慧,我們發(fā)明了一些新的算法、發(fā)明了一些新的產(chǎn)品,這是人的過程。相對于機器來說是這樣一個過程,底層有一個非常龐大的計算資源。不管是云計算平臺還是自有的數(shù)據(jù)中心計算平臺都離不開這個。
這個基礎之上我們開發(fā)一些認知服務和機器人框架。這是微軟的說法。什么是認知服務?一個小朋友看到一張照片,能準確說出這張照片上有一只狗、兩只貓,很簡單。但是如果讓機器讀這張照片上有幾只貓、幾只狗,狗的品種是什么,這是很難的事情。能夠?qū)懗鏊惴?,能夠準確地分辨照片上有一只貓兩只狗三張桌子四把椅子這樣的信息出來。我有個同事跟我說,我有一個很簡單的分法,能夠?qū)戇@個算法的人在北京年薪起碼在100-150萬以上。
我們現(xiàn)在認知服務,想法很簡單,我們想讓小朋友都能夠準確的判定內(nèi)容的過程。讓它平民化,讓大家通過簡單的API方式就能夠用到。這是我們的認知服務,加上一個機器人框架以后,更方便做溝通渠道交流。
除了這個以外,我們還有一些機器學習和數(shù)據(jù)分析的方法。所有學習過程我們要有大量數(shù)據(jù),大量數(shù)據(jù)背后要做計算,計算的結(jié)果才能給我們下一步教學行動給出一個建議。所有的過程,都是在這個基礎之上的。
視覺在個性化學習中的應用
實際上機器學習不是一個新的課題,它是以統(tǒng)計理論為基礎的學科,基于現(xiàn)有的、過去大批量的數(shù)據(jù)之上,通過一些統(tǒng)計學的原理,找到大量數(shù)據(jù)背后的規(guī)律。比如說我們能找出溫度和濕度,還有房間空間大小變化的規(guī)律,那我預測未來進入到一個新的空間里面以后,它的溫度和濕度的變化情況。
我剛才本來想脫口而出,尿布和啤酒的故事,這個故事講得太多了?;诮y(tǒng)計學的方式,能夠?qū)崿F(xiàn)一些基本的算法。有數(shù)據(jù)表明,你的數(shù)據(jù)超過100萬的話,不管在考試題目判斷上,還是在學習計劃行動上,人是可以接受的。如果你的樣本數(shù)據(jù)超過1000萬,不管是語音訓練、口型的訓練,還是試卷的一些判斷,或者是參加考試。你的準確率很有可能超過人的判斷力。
我們微軟亞洲研究院今年6月份剛剛發(fā)布,我們對英語語音爭取的識別率,錯誤率已經(jīng)降到4%以下,而一般來講人的差錯率在5.8%-6%。也就是說遠遠超過人的識別率了。這都是基于學習和數(shù)據(jù)分析基礎之上,再加上我們現(xiàn)在新算法的突破。利用深度學習的基礎,我們不停深度的訓練,完成了以學習驅(qū)動學習的過程。
這是微軟人工智能的三重境界。同樣我想跟大家說,這也是業(yè)界在人工智能研究方面的三個主要方向。在這個方向的認知服務上,我們提供了視覺、語言、語音、搜索知識等服務和方法。
我想重點給大家強調(diào)一下視覺,為什么要強調(diào)視覺?就像剛才講的一樣,一方面要知道你在什么地方學,你學的過程中情緒化是什么樣的。比如說我們要定制一個個性化學習課程,比如初中生要學一元二次方程。那一元二次方程每個人的學法是不一樣的,如果老師課堂教學很清楚知道這個課堂45個孩子每個人大概的表現(xiàn)是什么樣子。如果當我在上面講的時候,底下所有學生都是呆若木雞時,我認為我的教學方法可能有問題,或者這個學生掌握的有問題。而不僅僅只是從課后的練習獲取整個教學的過程。整個教學交互的過程中,當我講的過程當中,如果所有學生面部表情都是非常輕松的,那我認為這個課非常成功,學生掌握的也非常好,我可能快速的就過去了。
視覺來干什么事情呢?就是能夠在機器和人交互過程中,通過機器的方法判斷,當前聽眾處于什么樣的狀態(tài)。他到底是非常高興的,還是一個非常痛苦的學習過程。所以,這個很簡單,我能告訴大家的事情是,我們通過簡單的API,能夠把一個教室當中的學生,45個孩子,所有面部表情都能識別出來,都知道他當前處在一個什么樣的狀態(tài)。通過這些信息的加入,能夠精準化衡量教學的結(jié)果,這是一個認知服務。
我想通過一個視頻給大家看一下,認知服務到底怎么來看待。這個視頻當中的主人公是我在美國的同事,他是一位盲人,但他是微軟的程序員。因為現(xiàn)有技術(shù),通過簡單聽說讀寫,能夠讓他感知到鍵盤應該怎么敲,一本書寫的是什么。但是當他跟他的同事開會的時候,他沒有辦法判斷,沒有辦法知道對面同事是什么表情。就像這個一樣,在他面前這個人到底是做什么。光聽好像是有嘩啦啦的聲音,這個聲音到底是什么,他不知道。也就是說他不知道他周圍的環(huán)境。他可以正常去寫程序,但是他不知道周圍的環(huán)境。他也不知道他在開會的過程中,跟他同事溝通的過程當中,他同事到底是贊同的,還是反對的。
他就通過微軟的認知服務,視覺服務,很清楚的感知到他對面的聽眾是什么樣的反饋,他能知道對面有一男一女,年齡大概多少,對他剛才講的話是贊同,還是吃驚,還是什么。這代表下一步才能有反饋。
所以,只有當你把你周圍環(huán)境都感知進來的時候,才掌握了這個世界,才掌握了學習過程當中所有的環(huán)節(jié),才能很準確判斷下一步該給這些學生一些什么內(nèi)容。我們在評價人和人之間溝通的過程中,絕對不只有聽說讀寫,情緒是很重要的。但這個情緒恰恰就是我剛才講的,在我們神經(jīng)腦科學的發(fā)展沒有突破之前,很可惜。五六十年代對人的神經(jīng)網(wǎng)絡有研究,到現(xiàn)在為止沒有特別大的突破,沒有突破之前是很難的。我們也只是嘗試,通過大量的數(shù)據(jù)得到了這個結(jié)果,但是這個結(jié)果遠遠不夠的。
深度學習依賴多領域科學突破
同樣還有深度學習,我羅列了市場上用得最多的幾個深度學習的開源算法,包括微軟的CNTK,包括Caffe、TensorFlow,這是微軟、亞馬遜、谷歌,以及Facebook這四家最主流的業(yè)界里做人工智能基礎研究的科學家貢獻出來的深度學習算法。它利用了龐大的GPU計算能力,以及FPG的計算能力才能實現(xiàn)。但是現(xiàn)在已經(jīng)到了一個瓶頸。以微軟的CNTK為例,我們現(xiàn)在152層的深度神經(jīng)網(wǎng)絡。為什么這么多層次,我剛才講過了,層次越深,代表一張照片中信息是越多的。但是現(xiàn)在已經(jīng)到了一個瓶頸,我們用再多的計算能力,再快的計算能力,有一些內(nèi)容還是分別不出來。
這依賴于所有科學家,包括計算科學、數(shù)據(jù)科學、神經(jīng)科學、腦科學一起去做這件事,才能保證未來深度學習的過程。
深度學習到底能帶來什么?我剛才一直強調(diào)人和機器之間的交流,人和人之間情緒的判斷。那怎么才能達到一個更自然的環(huán)境呢?這是微軟小冰,它會唱歌,尤其會寫詩,剛剛也出版了一本詩集《陽光失去了玻璃窗》,朦朧派的詩集。人工美少女小冰的進化完完全全是人工智能的背后,深度學習背后對它的訓練。
訓練的結(jié)果是什么呢?大家先聽一段,這是去年4、5月時小冰剛第一版出來,它全合成唱歌的聲音。它不是想模仿某一個人的個性,如果小冰要去模仿,直接把張韶涵的原聲采集過來學習,可能就很清楚了。但是我們特意不想把它模仿某一個特定的個性,我們就想讓它就是它,以它的個性方式來唱出這首歌。一年前的這首歌不知道大家聽出來沒有,金屬音特別重,變化之間特別深。從去年到今年9月,持續(xù)一年訓練以后,我們再來聽聽今年它唱這首歌時是什么樣的聲調(diào)。仔細想想剛才的聲音,它非常接近人的自然發(fā)音,尤其音調(diào)之間起承轉(zhuǎn)合,非常符合人的聲音。
這個過程就是剛才講的大量數(shù)據(jù),大量人發(fā)聲的過程,大量人音調(diào)之間轉(zhuǎn)合的方式,給它做訓練,最后得到這樣一個結(jié)果。我們能不能在未來,跟AI相關的課程學習當中,跟我對話的機器老師、AI老師,能不能它的語調(diào)自然一點。我想這就是一個非常好的例子。
所有背后的技術(shù),最基礎的是認知服務,認知服務實際上是深度學習的結(jié)果,誰都可以去用,任何一個開發(fā)者都可以去用。你也可以自己訓練出另外一個小冰出來,所以這是一個基礎的架構(gòu)和服務。
兩年前我們和英國BBC合作,這個板子叫邁克Bid,現(xiàn)在在國內(nèi)的各大電商網(wǎng)站都能買到,很便宜,很薄的板子。它有LED顯示能夠加一些傳感器,最右上角這塊我們結(jié)合了一個在線編程的界面。談到編程大家不要錯誤理解,我一定要學C++或者是JAVA之類的語言。這個編程完全面向中小學生甚至是幼兒園。它是插件式的。我們不要去寫Hello Word,也不要寫if什么。我想讓這個板子出一個笑臉出來,我就把笑臉插進去;我想讓這個板子出一個哭臉,我就把這個哭的放進去;我想讓板子獲取溫度,我就把溫度的標簽給加上去。非常簡單。它背后就是我們認知服務里面的API,再加上微軟同事和BBC同事他們一起做的這樣一個架構(gòu)。
這里我想傳遞另外一個信息,我們不是想教中小學生去學編程,我們想改變?nèi)斯ぶ悄苷J知的一個思維方式。人工智能在各個行業(yè)里的使用可能會在未來改變我們的思維模式,由確定性思維模式改變?yōu)椴淮_定的思維模式。這種思維模式是需要訓練的。我們現(xiàn)在很多人很難馬上改過去,你不經(jīng)過訓練習慣是改不了的。思維模式也是一樣。我們想通過機器板卡和外界感知這幾個方面,從小朋友訓練人工智能給我們帶來的所謂不確定思維方式。
人工智能給我們帶來了很大便利,甚至改變了我們的行業(yè)。我想送給大家一句話,今天的異想天開將是明天的常態(tài)。人工智能會給所有行業(yè)帶來改變,人工智能也會對我們的思維模式產(chǎn)生改變。謝謝大家!
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。