360OSAI影像事業(yè)部總經(jīng)理張焰
芥末堆 冷冷 12月1日
11月24日,在芥末堆舉辦的GET2020教育科技大會(huì)“即構(gòu) · 教育科技卷:和合共生”的專場(chǎng)上,360OSAI影像事業(yè)部總經(jīng)理張焰發(fā)表了題為《AI視覺在教育中的應(yīng)用》的演講。
張焰主要分享了360AI視覺針對(duì)在線教育痛點(diǎn)開發(fā)的4大場(chǎng)景解決方案,包括代替督學(xué)、量化檢測(cè)、智能互動(dòng)以及智能工具。張焰相信科技改變未來,AI可以為教育行業(yè)起到降本增效的作用。
以下為張焰演講實(shí)錄:
首先介紹一下我們團(tuán)隊(duì),我們是360集團(tuán)旗下孵化的創(chuàng)新業(yè)務(wù)線,專注做AI視覺算法的研發(fā)和應(yīng)用。圍繞“人、物、場(chǎng)景”三個(gè)維度,為智能手機(jī)、泛文娛、在線教育、IOT等行業(yè)提供專業(yè)的算法支持和解決方案。
為什么做在線教育?
從國(guó)家層面上來講,教育是科技興邦的根本;對(duì)家庭而言,教育也是家庭的希望;從情懷而言,教育可能是最大的公益,這也是我們做在線教育的初衷。
由于疫情的影響,很多做線下傳統(tǒng)教育場(chǎng)景的機(jī)構(gòu),現(xiàn)在可能被迫或者被加速轉(zhuǎn)換到線上場(chǎng)景。這其實(shí)就是數(shù)字化的進(jìn)程,但是進(jìn)程來得太快,很多公司還沒適應(yīng)過來,所以這個(gè)過程也暴露了很多問題,以下四個(gè)痛點(diǎn)尤為明顯:
1、學(xué)生自覺性差。尤其是K12教育,這是典型的督導(dǎo)式教學(xué)。以前線下督導(dǎo)的壓力都在老師身上,搬到線上之后,督導(dǎo)的壓力都轉(zhuǎn)移到家長(zhǎng)身上了,家長(zhǎng)們也是為此操碎了心。
2、效果難以評(píng)估。到目前為止,還沒有一套成熟的量化指標(biāo)來評(píng)估課堂上的好與壞,家長(zhǎng)對(duì)線上教學(xué)的效果仍然存疑。
3、課堂互動(dòng)性差。你面對(duì)的互動(dòng)對(duì)象是一個(gè)冰冷的屏幕,而不是一個(gè)和藹可親的老師,所以在互動(dòng)方面會(huì)存在很多問題。
4、教學(xué)效率較低。傳統(tǒng)線上課難以還原線下場(chǎng)景,包括場(chǎng)地設(shè)備的限制,給老師和機(jī)構(gòu)增加了不少成本。
AI視覺能為在線教育做什么?
其實(shí)我不算是教育工作者,只是科技從業(yè)者,我堅(jiān)信科技是可以改變未來的,我們想做未來的教育。那么科技與教育的結(jié)合能夠碰撞出什么樣的火花?我們提出了幾個(gè)解決方案:
1、代替督學(xué)方案
現(xiàn)在的責(zé)任由老師轉(zhuǎn)變給家長(zhǎng),希望用機(jī)器來替代老師跟家長(zhǎng)進(jìn)行督學(xué),這里涉及到兩個(gè)層面:疲勞提醒和姿態(tài)糾正。
很多廠家也都做過疲勞提醒,尤其像教育臺(tái)燈、教育平板類的產(chǎn)品,包括像打哈欠、瞌睡這兩個(gè)行為,我們?cè)黾恿伺恐膱?chǎng)景。看了很多真實(shí)的線下教學(xué)視頻,學(xué)生上課比較自由散漫,都是趴在桌子上。但是趴著的場(chǎng)景還真的不好做,原因是雖然全身的骨骼關(guān)節(jié)點(diǎn)比較好檢測(cè),但針對(duì)半身,可能只看到一個(gè)頭發(fā)或者上半身的一小部分,這種人體關(guān)節(jié)點(diǎn)幾乎是檢測(cè)不到或者是不準(zhǔn)的。為此我們做了很多的嘗試和研究,解決了這個(gè)問題。
姿態(tài)糾正也分為兩類:坐姿不良和距離太近。坐姿不良有很多維度,比如趴著、臥倒、傾斜,這些情況都可以檢測(cè)出來。距離太近,有兩套方案。第一套是基于2D人臉檢測(cè)技術(shù)來做的,這個(gè)技術(shù)的精度可能比較有限,大概是到厘米級(jí)別。我們還有跟其他的硬件廠商做的升級(jí)方案,可以精確到毫米級(jí)別的距離探測(cè)。
學(xué)生姿態(tài)實(shí)時(shí)檢測(cè)系統(tǒng)的實(shí)現(xiàn)方案,總體分為兩個(gè)維度:人臉姿態(tài)檢測(cè)和人體姿態(tài)。人臉姿態(tài)包括打哈欠、瞌睡等,人體姿態(tài)檢測(cè)也加入了3D深度信息,因?yàn)楝F(xiàn)在很多的教育平板都會(huì)加入ToF攝像頭或者3D結(jié)構(gòu)光,這樣能獲取到深度信息,用深度信息來輔助做人體的立體姿態(tài)識(shí)別,可以大幅的提高精度。
2、量化檢測(cè)方案
課堂專注度與課堂接受度是家長(zhǎng)比較看重的兩個(gè)維度,尤其是線下的課轉(zhuǎn)到線上之后。學(xué)生有沒有走神,有沒有認(rèn)真聽講,上課的效果好不好,后續(xù)存在什么問題,這些是家長(zhǎng)非常關(guān)心的指標(biāo)。
普通專注度檢測(cè)有幾個(gè)維度,像舉手、低頭、瞌睡、玩手機(jī),缺陷是僅有2D圖像信息,檢測(cè)準(zhǔn)確率欠佳。另外是檢測(cè)指標(biāo)單一,沒法精準(zhǔn)回溯學(xué)情。
而我們做的課堂專注度,包括了3D深度檢測(cè)和學(xué)情回溯系統(tǒng)。可以看到我們加入了人體Depth信息,基于這個(gè)信息可以比較精準(zhǔn)的估計(jì)到人體的每個(gè)姿態(tài),然后再加入事件的觸發(fā)機(jī)制,最后得到監(jiān)測(cè)結(jié)果。這個(gè)結(jié)果包括事件狀態(tài)的上報(bào),時(shí)間戳,以及當(dāng)前時(shí)間戳發(fā)生的事件截圖等,便于課后對(duì)教學(xué)情況進(jìn)行回溯分析。
關(guān)于課堂接受度,到目前為止,還沒有哪家公司真正把它做到產(chǎn)品里。我們首創(chuàng)的課堂接受度,包含了正向和負(fù)向維度。正向的維度像舉手、微笑、點(diǎn)頭,代表課堂接受度是比較好的。負(fù)向的維度像疑惑、皺眉、搖頭,這些代表課堂接受度較差。
針對(duì)疑惑這個(gè)表情的處理,我們也下了很多功夫。從學(xué)術(shù)界來看,人類常見的表情只有7種,并不包括疑惑這個(gè)表情,也沒有相關(guān)的數(shù)據(jù)。但這個(gè)表情對(duì)教學(xué)場(chǎng)景很有意義,所以我們?cè)谶@方面做了大量的數(shù)據(jù)補(bǔ)充,增加了疑惑的數(shù)據(jù)和標(biāo)注,最后通過遷移學(xué)習(xí)的方式,再結(jié)合人體關(guān)鍵點(diǎn)進(jìn)行輔助識(shí)別,得到了最終的8類表情識(shí)別。
我們的課質(zhì)監(jiān)測(cè)方案采用了典型的“邊緣計(jì)算+云計(jì)算”結(jié)合的架構(gòu),因?yàn)楝F(xiàn)在邊緣端算力已經(jīng)越來越強(qiáng)了,所以很多算法可以直接拷在邊緣設(shè)備端以及APP上。采用這種架構(gòu)還出于隱私的考慮,大家擔(dān)心把學(xué)生端的攝像頭打開之后,檢測(cè)學(xué)生的行為可能會(huì)觸犯?jìng)€(gè)人隱私或者非法上傳數(shù)據(jù)。這也是我們比較慎重考慮的,所以盡量把端的能力發(fā)揮出來,上傳的只是用AI算法檢測(cè)之后的狀態(tài),而不是客戶隱私的數(shù)據(jù)。
網(wǎng)課助手對(duì)老師而言,可以得到整個(gè)班級(jí)的課堂表現(xiàn)報(bào)告,這應(yīng)該是非常有價(jià)值的。對(duì)家長(zhǎng)而言,家長(zhǎng)也可以生成本地的報(bào)告,得到學(xué)生在每個(gè)維度的表現(xiàn)情況。包括他的專注度、疲勞度、接受度、不良坐姿表現(xiàn)等情況,而且可以針對(duì)每一個(gè)維度的時(shí)間戳進(jìn)行回溯分析。
3、智能互動(dòng)方案
傳統(tǒng)的錄播課為了有一個(gè)比較好的體驗(yàn),可能需要去一個(gè)專門的錄播間,后面搭建綠幕,還有補(bǔ)光燈和一系列的設(shè)備。這里有一個(gè)明顯的缺點(diǎn)是對(duì)場(chǎng)地的要求過高,而且后期的制作成本也比較高。
而傳統(tǒng)的直播課,可以看到課件跟老師的頭像畫面是分屏展示的,老師跟學(xué)生之間的互動(dòng)很有限,這對(duì)幼兒教育的體驗(yàn)是非常不友好的。
我們的AI沉浸式課件,做了非常精準(zhǔn)的人像分割,把課件放在人像后面展示,同時(shí)人跟課件之間可以進(jìn)行互動(dòng)。另外,比如課件的播放、暫停、上一頁(yè)、下一頁(yè)這些簡(jiǎn)單的操控,以及老師跟課件內(nèi)容的互動(dòng),是我們后期不斷探索的方向。這個(gè)技術(shù)也可以用來做課件的生產(chǎn)工具,不需要錄播間的場(chǎng)地和設(shè)備,自動(dòng)完成課件制作。
說到網(wǎng)課互動(dòng),我們知道傳統(tǒng)的線上互動(dòng)都是老師單向輸出為主,老師很難兼顧到每個(gè)學(xué)生的狀態(tài)。因?yàn)閷W(xué)生在屏幕當(dāng)中只是非常小的頭像,學(xué)生發(fā)生什么狀況,老師是不知道的。
我們研發(fā)了一系列智能互動(dòng)工具,可以通過AI手段實(shí)現(xiàn)多向多元的互動(dòng)。比如手勢(shì)識(shí)別,如果這個(gè)學(xué)生回答問題之后,老師覺得很棒,可以點(diǎn)一個(gè)贊觸發(fā)點(diǎn)贊的特效。如果系統(tǒng)檢測(cè)到學(xué)生疑惑了,可以把他的頭像排到前面,這樣老師就可以非常精準(zhǔn)快速地知道哪個(gè)學(xué)生跟他有互動(dòng),哪個(gè)學(xué)生有疑惑或者哪個(gè)學(xué)生在舉手提問。還有像人臉特效是比較常見的,現(xiàn)在有很多幼兒教育都會(huì)用它來增加互動(dòng)的趣味性。
4、智能工具方案
我們?cè)谶@部分做了很多的投入跟創(chuàng)新,因?yàn)檫@些跟硬件結(jié)合比較緊密,也是我們的強(qiáng)項(xiàng)。我們以前做手機(jī)出身,所以在這部分有比較好的理解跟實(shí)踐經(jīng)驗(yàn)。
很多的學(xué)習(xí)APP里可能都有拍照搜題的功能,拍照之后用OCR技術(shù)識(shí)別。很多學(xué)生可能用教育平板拍照,這時(shí)因?yàn)閷W(xué)生手比較小,教育平板又很大,去按快門鍵的時(shí)候可能經(jīng)常會(huì)手抖或者拍不清晰。但現(xiàn)在的教育平板和手機(jī)都沒有光學(xué)防抖的加持,為什么沒有光學(xué)防抖?主要還是考慮硬件成本,一個(gè)光學(xué)防抖的硬件模組要4美金左右,成本還是非常高的。
我們內(nèi)部出了HD Shot解決方案,可以解決各種場(chǎng)景下失焦、抖動(dòng)、噪點(diǎn)、暗光等一系列拍照模糊的問題。這個(gè)功能在科大訊飛的錄音筆上已經(jīng)上線了,現(xiàn)在的錄音筆很智能,除了有錄音功能,還可以拍會(huì)議的文檔和PPT,所以這個(gè)功能還是蠻有意思、蠻有價(jià)值的。
如下圖所示,左邊是處理前的效果,右邊是處理之后的。這個(gè)功能可以提升動(dòng)態(tài)范圍,對(duì)高光進(jìn)行抑制,對(duì)暗部進(jìn)行提亮。
視頻畫質(zhì)提升的技術(shù),對(duì)老師端或者主播端非常有價(jià)值。一些專業(yè)的主播,設(shè)備非常齊全,把手機(jī)架到補(bǔ)光燈上,希望自己的臉更精致透亮。但是長(zhǎng)期使用補(bǔ)光燈對(duì)眼睛的傷害還是比較大的,所以我們做了純AI軟件補(bǔ)光燈方案。一套是全局的補(bǔ)光方案,還有一套是專門針對(duì)人臉的補(bǔ)光方案。針對(duì)人臉的補(bǔ)光方案,會(huì)對(duì)人臉的膚色進(jìn)行精準(zhǔn)的識(shí)別,利用3D打光技術(shù)把人臉變得更加透亮。
Face ID技術(shù),在智慧校園也已經(jīng)開始應(yīng)用了,這個(gè)技術(shù)核心難點(diǎn)可能在于誤識(shí)率、拒識(shí)率指標(biāo)以及活體檢測(cè)。它可以用在線上跟線下的大班課程,比如考勤點(diǎn)名,防止別人代答到這種情況。
最后用金字塔結(jié)構(gòu)總結(jié)一下我們的業(yè)務(wù)架構(gòu),最底層是核心的基礎(chǔ)技術(shù),第二層是基于場(chǎng)景化的解決方案,需要深入了解行業(yè)的特點(diǎn)以及場(chǎng)景化的需求,頂層則是我們基于各個(gè)平臺(tái)適配的SDK產(chǎn)品,我們可以基于基礎(chǔ)技術(shù)做很多業(yè)務(wù)層的封裝和開發(fā)。
我一直相信科技改變未來,AI可以為在線教育行業(yè)起到降本增效的作用。AI教育,未來可期。謝謝大家!
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。