芥末堆芥末堆

人工智能是學(xué)習(xí)的尚方寶劍還是“石中劍”?

作者:Jessie 發(fā)布時間:

人工智能是學(xué)習(xí)的尚方寶劍還是“石中劍”?

作者:Jessie 發(fā)布時間:

摘要:單純掌握某種數(shù)據(jù),不能實現(xiàn)功能上的聯(lián)動和數(shù)據(jù)共享,這種信息孤島現(xiàn)象會成為人工智能發(fā)揮的最大阻礙。

500677330_meitu_1.jpg

圖片來源:攝圖網(wǎng)

過去,人們試圖通過分析學(xué)生的學(xué)習(xí)行為數(shù)據(jù),給予其個性化的學(xué)習(xí)指導(dǎo)。但是,由于數(shù)據(jù)搜集技術(shù)的局限性,導(dǎo)致數(shù)據(jù)的指導(dǎo)意義不夠準確,商業(yè)化應(yīng)用產(chǎn)值低。

近年來,隨著技術(shù)的進步,以及資本市場的關(guān)注,教育科技產(chǎn)品呈現(xiàn)井噴式爆發(fā),許多學(xué)習(xí)過程得以數(shù)字化,數(shù)據(jù)搜集變得更加簡單。

大數(shù)據(jù)(Big Data)爆炸成長成為機器學(xué)習(xí)的養(yǎng)分。機器學(xué)習(xí)能獲得充分的訓(xùn)練數(shù)據(jù)(training data) 與計算效能。人工智能產(chǎn)業(yè)(Artificial Intelligence,AI)經(jīng)過一甲子的起落,終于因技術(shù)條件到位,開始突飛猛進。但是,單純掌握某種數(shù)據(jù),不能實現(xiàn)功能上的聯(lián)動和數(shù)據(jù)共享,這種信息孤島現(xiàn)象會成為人工智能發(fā)揮的最大阻礙。

什么是機器學(xué)習(xí)?

機器學(xué)習(xí)(Machine Learning)是人工智能的子領(lǐng)域。而常聽到的深度學(xué)習(xí)(Deep Learning)則是機器學(xué)習(xí)中的一支。

人工智能的范疇,涵蓋了所有嘗試以電腦去模仿人腦處理信息的能力。例如:以電路設(shè)計或算法來模仿人腦神經(jīng)元網(wǎng)絡(luò)的運作;以程序模擬彼此互連的知識概念,如 Google 搜尋引擎的核心——知識圖譜(Knowledge Graph);以及,讓電腦能理解人類語言的自然語言處理技術(shù)(Natural Language Processing)等,都屬于人工智能的范疇。模仿人腦思考能力的人工智能到目前為止,不算完全成功;倒是機器學(xué)習(xí)技術(shù),因為上述原因,達到博聞強記,神速運算的效果,而異軍突起。

機器學(xué)習(xí)大量使用統(tǒng)計的方法與推論,建立預(yù)測能力,讓電腦或人類可以有效地即時采取行動。機器學(xué)習(xí)的核心,在于電腦能從收到的資料中學(xué)習(xí),持續(xù)提升達成預(yù)設(shè)目標的能力(例如,專門推薦餐廳的應(yīng)用),而不需依賴開發(fā)者不斷下發(fā)指令。

今天,機器學(xué)習(xí)技術(shù)已經(jīng)被廣泛應(yīng)用于各產(chǎn)業(yè)。以下是各種可能的能力,例如:購物網(wǎng)站根據(jù)使用者瀏覽行為與歷史紀錄,動態(tài)調(diào)整推薦商品;零售商店根據(jù)氣候、季節(jié)、日期與地理位置等,計算各商品最佳定價;還有,人臉或圖片辨識、手寫輸入辨識、語音辨識、自動過濾垃圾郵件、自動偵測信用卡盜刷、幫醫(yī)生判讀資料等。機器學(xué)習(xí)早已被廣泛用在我們生活中,甚至你可能曾與人工智能客服交手過而不知道。

最引人關(guān)注的代表性事件包括 AlphaGo 戰(zhàn)勝世界圍棋冠軍、自動駕駛汽車上路、IBM Watson 用于開發(fā)智能語音助理等。

如果將機器學(xué)習(xí)用在學(xué)習(xí)上,又有哪些可能呢?臺灣大學(xué)林軒田教授團隊 2010 年贏得 KDD Cup 冠軍,題目是根據(jù) 3000 名學(xué)生回答數(shù)學(xué)題的 900 萬條記錄,預(yù)測個別學(xué)生是否能答對特定題目。這是一個容易理解的例子,也是一個非常清楚定義的問題。

人工智能成為熱門話題,一般人以此用語統(tǒng)稱,并不清楚其中各領(lǐng)域本質(zhì)上的差異。組織主管看到別人揮著這把“尚方寶劍”,媒體文章說著:下一個十年的絕勝點在于掌握如何善用人工智能,內(nèi)心多少有焦慮,希望就像電影里一樣,一朝搶到尚方寶劍,就立于不敗之地。教育培訓(xùn)科技產(chǎn)業(yè)人士對人工智能的期許,情形類似。

現(xiàn)今人工智能已逐漸像基礎(chǔ)建設(shè)(例如:電力,水)一樣可以接取使用,所以,許多人認為以上的期待并不遙遠。沒錯,許多機器學(xué)習(xí)的計算能力已經(jīng)透過程序接口(API)提供出來,例如:IBM 的 Watson、谷歌、微軟、阿里云都有提供這類接口服務(wù)。

人工智能是尚方寶劍還是石中劍?

可惜現(xiàn)實世界是個復(fù)雜的系統(tǒng),這不是 plug-and-play(即插即用)。

第一,如果你還沒有明確定義的問題,人工智能對你是沒用的。對這點事實,人類應(yīng)該感到慶幸(不會被取代),機器人只能解決我們定義好而且適當建模的問題。各種算法就像用在不同場景的各種單一功能工具,依靠人類對關(guān)注的系統(tǒng)建立模型后,選擇適當工具用在適當?shù)沫h(huán)節(jié),并需要實際數(shù)據(jù)來訓(xùn)練模型,調(diào)校與優(yōu)化參數(shù)。數(shù)據(jù)越多,人工智能表現(xiàn)越好。有時因為情境或使用者的基礎(chǔ)不同,可能需重新訓(xùn)練模型。

第二,如果你沒有 (1)正確結(jié)構(gòu)化(2)乾凈(3)足夠的 -- 數(shù)據(jù)(Data),幻想接上人工智能就會有神奇的效果,那是不可能的。

不準確的數(shù)據(jù)只會帶來誤判,資料科學(xué)家都知道整理資料經(jīng)?;ǖ?nbsp;80% 的時間,結(jié)構(gòu)化的資料是為分析而設(shè)計過的資料格式,節(jié)省清理與匯整資料的時間,也與模型對接。模型要準,需要越多資料越好,所謂“足夠”的資料,根據(jù)你定義的問題范圍大小而定。

自適應(yīng)技術(shù)在美國已逐漸導(dǎo)入各學(xué)習(xí)系統(tǒng),有些正式評量也被采用,但為何還會出現(xiàn)成效不彰的反面案例呢?像所有工程系統(tǒng)一樣,這些系統(tǒng)設(shè)計上有許多因子與參數(shù),因各自設(shè)定不同,應(yīng)用時最好能視需求讓使用者調(diào)整部分參數(shù)。但在實際應(yīng)用過程中,并非都有這種選項,結(jié)果不同系統(tǒng)效能自然相異。國外在學(xué)習(xí)場景導(dǎo)入這種系統(tǒng),是經(jīng)過好幾年與教師密切溝通合作,才得以成功。另外,其應(yīng)用場景需將內(nèi)容放進該系統(tǒng),如果學(xué)習(xí)發(fā)生在系統(tǒng)之外,則系統(tǒng)擁有的資料不夠,效能當然大打折扣。

何謂足夠的資料(數(shù)據(jù))?

學(xué)習(xí)的趨勢持續(xù)走向分散化、多元化、去中心化,一個系統(tǒng)不可能完全掌握學(xué)習(xí)者的足夠資料,這些發(fā)生在多元應(yīng)用里的學(xué)習(xí)經(jīng)驗,需要像 Experience API(xAPI) 接取多重資料流,實時匯整,才能解決信息孤島(Data Silos) 問題。

另一個"足夠"的層面是行為數(shù)據(jù)采集的維度,例如:做練習(xí)題,只有記錄答對或答錯,機器學(xué)習(xí)可以推測的范圍極為有限(巧婦難為無米之炊);但是如果記錄了答題花費的時間、嘗試次數(shù),那么機器可以知道這題對學(xué)習(xí)者是偏難或偏易,或他是不是猜對的,再據(jù)此推送適合該學(xué)生的題目(題目的難度標注或統(tǒng)計是另一個議題);如果題目有按需給出提示,則做題者是否使用提示,揭露了不同意義;還有,如果知道答題前發(fā)生的相關(guān)學(xué)習(xí)行為,則給機器提供了更好的建議根據(jù);如果機器模型累積了過去大量成功學(xué)習(xí)者的路徑,與當事者的過去記錄進行對比,則可以形成絕佳建議根據(jù);最后,如果有記錄答題是在課堂上,與同學(xué)合作,在搭公車時,或在家時間發(fā)生,這些維度的數(shù)據(jù)都可以被用到。

xAPI 正是這樣的工具,讓我們采集豐富維度的行為資料,依據(jù)分析需求來設(shè)計數(shù)據(jù)結(jié)構(gòu)。只要是數(shù)字系統(tǒng),都可埋入 xAPI 進行行為數(shù)據(jù)采集,并不限于學(xué)習(xí)應(yīng)用。

xAPI 的創(chuàng)新之處在于建立了獨立于應(yīng)用之外的數(shù)據(jù)層,用統(tǒng)一語言打通應(yīng)用之間的信息壁壘。這個標準數(shù)據(jù)層不但人可讀懂,機器也可讀懂,所以機器能夠自行推理。xAPI基于語義網(wǎng)技術(shù)(Semantic Web Technology,也稱Web 3.0) – 這是萬維網(wǎng)之父 Tim Berners-Lee 為將來萬物互聯(lián)環(huán)境智能化的愿景所主張之關(guān)鍵技術(shù),現(xiàn)在工業(yè) 4.0 也是基于這種語義技術(shù)。 未來,機器可以從群眾與內(nèi)容的互動歷程(也是群眾智慧),自動萃取語義網(wǎng)連結(jié)的內(nèi)容、學(xué)習(xí)路徑、相關(guān)的人推薦給適合的人,xAPI 以 Key-Value 型態(tài)攜帶的情境、結(jié)果、環(huán)境、時間點等數(shù)據(jù)都可放進算法中。

xAPI 結(jié)合機器學(xué)習(xí)的應(yīng)用案例

從下舉幾個使用 xAPI 進行行為數(shù)據(jù)采集,結(jié)合機器學(xué)習(xí)的案例。雖然不是直接的學(xué)習(xí)案例,但原理完全可以用在學(xué)習(xí)訓(xùn)練上。

改進網(wǎng)頁布局與行銷體驗

網(wǎng)站為提升轉(zhuǎn)化率,研究使用情境受到重視,一般透過運維管理(DevOps)改進網(wǎng)站使用體驗。但是,網(wǎng)站瀏覽者使用情境多元,增添變數(shù),為不同裝置而設(shè)計的單頁式與響應(yīng)式設(shè)計,增加了分析情境的復(fù)雜度。原來透過 Google Analytics 分析使用者體驗,但無法有效分析。

借助 xAPI 跨裝置的特性搜集行為,能夠掌握使用者的隱性及顯性行為,憑借自適化的語意網(wǎng)頁架構(gòu),讓內(nèi)容與布局分開儲存,后臺分析結(jié)果進行自動化調(diào)整(網(wǎng)頁長度、設(shè)計、文案),最短時間呈現(xiàn)吸引訪客的內(nèi)容。結(jié)果 bounce rate 與 exit rate 明顯下降了約40%,新頁面推播點擊率由 8% 提升至34%,來電成交率由 33% 提升至 53% 。(臺灣大學(xué) iCAN Lab 提供)

微信截圖_20171031133232.png

以 xAPI 采集行為結(jié)合機器學(xué)習(xí)技術(shù)提升網(wǎng)上行銷轉(zhuǎn)化率(來自iCAN Lab)

建立有情境感知能力的健康護理移動應(yīng)用

脊椎損傷病患使用移動應(yīng)用輔助復(fù)健運動與日常護理,但為減少這些病人操作應(yīng)用的次數(shù),建立能感知情境的智能引擎,持續(xù)收集病人的歷程資料以及相關(guān)情境資料(時間、地點、裝置...),并結(jié)合護理師所設(shè)計的處方,適時推薦適合病人當下的活動或提醒,更好地協(xié)助病患。

根據(jù)分析模型對資料進行結(jié)構(gòu)化,xAPI 可以收集任何數(shù)字資料,包括生理數(shù)據(jù),與傳感器數(shù)據(jù),越多資料則推薦引擎智能越高。xAPI 的跨裝置特性,提升結(jié)構(gòu)化資料匯流的效率。這個推薦介面降低病人需要手動操作應(yīng)用的次數(shù),實時自動推薦最適的活動給病人。(臺灣大學(xué) iCAN Lab 提供)

信息孤島(Data Silos)是人工智能發(fā)揮的最大阻礙

數(shù)據(jù)(Data)是現(xiàn)代的石油,所謂數(shù)據(jù)寡頭就是那些擁有大量數(shù)據(jù)而掌握知識經(jīng)濟的力量。在教育或培訓(xùn)領(lǐng)域,信息孤島(Data Silos)才是人工智能發(fā)揮其力量的最大阻礙。你在其它領(lǐng)域看到的人工智能應(yīng)用,尚未實踐在學(xué)習(xí)上,或使用成效不彰,是因為沒有足夠的數(shù)據(jù)。單一功能的人工智能,例如,廣泛應(yīng)用在客服與行銷的聊天機器人,載入學(xué)科知識,當然可以用在教育上,但僅止于知識問答(例:喬治亞理工學(xué)院利用IBM Watson 建立虛擬助教,回答事先建立好的Q&A);單一學(xué)科的自適應(yīng)學(xué)習(xí),尤以數(shù)學(xué)最成熟,但仍需控制學(xué)習(xí)完全發(fā)生在該應(yīng)用內(nèi)才有意義。

真正了解學(xué)習(xí)者的智能助理,那是完全另一個層次!學(xué)習(xí)場景多元化的今天,個人學(xué)習(xí)過程分散,機器要掌握足夠數(shù)據(jù)才能建立智慧(較佳模型與推薦),整合打通多維度的行為數(shù)據(jù),才可能建立無縫的智能化學(xué)習(xí)環(huán)境。沒有數(shù)據(jù)策略,你還離人工智能很遙遠?,F(xiàn)在就從可行的范圍做起。

注:xAPI 是美國國防部為實現(xiàn)分散式學(xué)習(xí)環(huán)境中個人智能助理的關(guān)鍵技術(shù),欲進一步了解,可參考:http://xapi-cop.net/ 。

作者介紹:

Jessie Chuang,美國教育科技顧問公司 Classroom Aid Inc. 的聯(lián)合創(chuàng)辦人,xAPI 中文實踐社群主持人,Visca Analytics 指導(dǎo)顧問 (WeChat: JessieChuang87)。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 人工智能是學(xué)習(xí)的尚方寶劍還是“石中劍”?分享二維碼