360OSAI影像事業(yè)部總經理張焰
芥末堆 冷冷 12月1日
11月24日,在芥末堆舉辦的GET2020教育科技大會“即構 · 教育科技卷:和合共生”的專場上,360OSAI影像事業(yè)部總經理張焰發(fā)表了題為《AI視覺在教育中的應用》的演講。
張焰主要分享了360AI視覺針對在線教育痛點開發(fā)的4大場景解決方案,包括代替督學、量化檢測、智能互動以及智能工具。張焰相信科技改變未來,AI可以為教育行業(yè)起到降本增效的作用。
以下為張焰演講實錄:
首先介紹一下我們團隊,我們是360集團旗下孵化的創(chuàng)新業(yè)務線,專注做AI視覺算法的研發(fā)和應用。圍繞“人、物、場景”三個維度,為智能手機、泛文娛、在線教育、IOT等行業(yè)提供專業(yè)的算法支持和解決方案。
為什么做在線教育?
從國家層面上來講,教育是科技興邦的根本;對家庭而言,教育也是家庭的希望;從情懷而言,教育可能是最大的公益,這也是我們做在線教育的初衷。
由于疫情的影響,很多做線下傳統(tǒng)教育場景的機構,現(xiàn)在可能被迫或者被加速轉換到線上場景。這其實就是數字化的進程,但是進程來得太快,很多公司還沒適應過來,所以這個過程也暴露了很多問題,以下四個痛點尤為明顯:
1、學生自覺性差。尤其是K12教育,這是典型的督導式教學。以前線下督導的壓力都在老師身上,搬到線上之后,督導的壓力都轉移到家長身上了,家長們也是為此操碎了心。
2、效果難以評估。到目前為止,還沒有一套成熟的量化指標來評估課堂上的好與壞,家長對線上教學的效果仍然存疑。
3、課堂互動性差。你面對的互動對象是一個冰冷的屏幕,而不是一個和藹可親的老師,所以在互動方面會存在很多問題。
4、教學效率較低。傳統(tǒng)線上課難以還原線下場景,包括場地設備的限制,給老師和機構增加了不少成本。
AI視覺能為在線教育做什么?
其實我不算是教育工作者,只是科技從業(yè)者,我堅信科技是可以改變未來的,我們想做未來的教育。那么科技與教育的結合能夠碰撞出什么樣的火花?我們提出了幾個解決方案:
1、代替督學方案
現(xiàn)在的責任由老師轉變給家長,希望用機器來替代老師跟家長進行督學,這里涉及到兩個層面:疲勞提醒和姿態(tài)糾正。
很多廠家也都做過疲勞提醒,尤其像教育臺燈、教育平板類的產品,包括像打哈欠、瞌睡這兩個行為,我們增加了趴著的場景。看了很多真實的線下教學視頻,學生上課比較自由散漫,都是趴在桌子上。但是趴著的場景還真的不好做,原因是雖然全身的骨骼關節(jié)點比較好檢測,但針對半身,可能只看到一個頭發(fā)或者上半身的一小部分,這種人體關節(jié)點幾乎是檢測不到或者是不準的。為此我們做了很多的嘗試和研究,解決了這個問題。
姿態(tài)糾正也分為兩類:坐姿不良和距離太近。坐姿不良有很多維度,比如趴著、臥倒、傾斜,這些情況都可以檢測出來。距離太近,有兩套方案。第一套是基于2D人臉檢測技術來做的,這個技術的精度可能比較有限,大概是到厘米級別。我們還有跟其他的硬件廠商做的升級方案,可以精確到毫米級別的距離探測。
學生姿態(tài)實時檢測系統(tǒng)的實現(xiàn)方案,總體分為兩個維度:人臉姿態(tài)檢測和人體姿態(tài)。人臉姿態(tài)包括打哈欠、瞌睡等,人體姿態(tài)檢測也加入了3D深度信息,因為現(xiàn)在很多的教育平板都會加入ToF攝像頭或者3D結構光,這樣能獲取到深度信息,用深度信息來輔助做人體的立體姿態(tài)識別,可以大幅的提高精度。
2、量化檢測方案
課堂專注度與課堂接受度是家長比較看重的兩個維度,尤其是線下的課轉到線上之后。學生有沒有走神,有沒有認真聽講,上課的效果好不好,后續(xù)存在什么問題,這些是家長非常關心的指標。
普通專注度檢測有幾個維度,像舉手、低頭、瞌睡、玩手機,缺陷是僅有2D圖像信息,檢測準確率欠佳。另外是檢測指標單一,沒法精準回溯學情。
而我們做的課堂專注度,包括了3D深度檢測和學情回溯系統(tǒng)??梢钥吹轿覀兗尤肓巳梭wDepth信息,基于這個信息可以比較精準的估計到人體的每個姿態(tài),然后再加入事件的觸發(fā)機制,最后得到監(jiān)測結果。這個結果包括事件狀態(tài)的上報,時間戳,以及當前時間戳發(fā)生的事件截圖等,便于課后對教學情況進行回溯分析。
關于課堂接受度,到目前為止,還沒有哪家公司真正把它做到產品里。我們首創(chuàng)的課堂接受度,包含了正向和負向維度。正向的維度像舉手、微笑、點頭,代表課堂接受度是比較好的。負向的維度像疑惑、皺眉、搖頭,這些代表課堂接受度較差。
針對疑惑這個表情的處理,我們也下了很多功夫。從學術界來看,人類常見的表情只有7種,并不包括疑惑這個表情,也沒有相關的數據。但這個表情對教學場景很有意義,所以我們在這方面做了大量的數據補充,增加了疑惑的數據和標注,最后通過遷移學習的方式,再結合人體關鍵點進行輔助識別,得到了最終的8類表情識別。
我們的課質監(jiān)測方案采用了典型的“邊緣計算+云計算”結合的架構,因為現(xiàn)在邊緣端算力已經越來越強了,所以很多算法可以直接拷在邊緣設備端以及APP上。采用這種架構還出于隱私的考慮,大家擔心把學生端的攝像頭打開之后,檢測學生的行為可能會觸犯個人隱私或者非法上傳數據。這也是我們比較慎重考慮的,所以盡量把端的能力發(fā)揮出來,上傳的只是用AI算法檢測之后的狀態(tài),而不是客戶隱私的數據。
網課助手對老師而言,可以得到整個班級的課堂表現(xiàn)報告,這應該是非常有價值的。對家長而言,家長也可以生成本地的報告,得到學生在每個維度的表現(xiàn)情況。包括他的專注度、疲勞度、接受度、不良坐姿表現(xiàn)等情況,而且可以針對每一個維度的時間戳進行回溯分析。
3、智能互動方案
傳統(tǒng)的錄播課為了有一個比較好的體驗,可能需要去一個專門的錄播間,后面搭建綠幕,還有補光燈和一系列的設備。這里有一個明顯的缺點是對場地的要求過高,而且后期的制作成本也比較高。
而傳統(tǒng)的直播課,可以看到課件跟老師的頭像畫面是分屏展示的,老師跟學生之間的互動很有限,這對幼兒教育的體驗是非常不友好的。
我們的AI沉浸式課件,做了非常精準的人像分割,把課件放在人像后面展示,同時人跟課件之間可以進行互動。另外,比如課件的播放、暫停、上一頁、下一頁這些簡單的操控,以及老師跟課件內容的互動,是我們后期不斷探索的方向。這個技術也可以用來做課件的生產工具,不需要錄播間的場地和設備,自動完成課件制作。
說到網課互動,我們知道傳統(tǒng)的線上互動都是老師單向輸出為主,老師很難兼顧到每個學生的狀態(tài)。因為學生在屏幕當中只是非常小的頭像,學生發(fā)生什么狀況,老師是不知道的。
我們研發(fā)了一系列智能互動工具,可以通過AI手段實現(xiàn)多向多元的互動。比如手勢識別,如果這個學生回答問題之后,老師覺得很棒,可以點一個贊觸發(fā)點贊的特效。如果系統(tǒng)檢測到學生疑惑了,可以把他的頭像排到前面,這樣老師就可以非常精準快速地知道哪個學生跟他有互動,哪個學生有疑惑或者哪個學生在舉手提問。還有像人臉特效是比較常見的,現(xiàn)在有很多幼兒教育都會用它來增加互動的趣味性。
4、智能工具方案
我們在這部分做了很多的投入跟創(chuàng)新,因為這些跟硬件結合比較緊密,也是我們的強項。我們以前做手機出身,所以在這部分有比較好的理解跟實踐經驗。
很多的學習APP里可能都有拍照搜題的功能,拍照之后用OCR技術識別。很多學生可能用教育平板拍照,這時因為學生手比較小,教育平板又很大,去按快門鍵的時候可能經常會手抖或者拍不清晰。但現(xiàn)在的教育平板和手機都沒有光學防抖的加持,為什么沒有光學防抖?主要還是考慮硬件成本,一個光學防抖的硬件模組要4美金左右,成本還是非常高的。
我們內部出了HD Shot解決方案,可以解決各種場景下失焦、抖動、噪點、暗光等一系列拍照模糊的問題。這個功能在科大訊飛的錄音筆上已經上線了,現(xiàn)在的錄音筆很智能,除了有錄音功能,還可以拍會議的文檔和PPT,所以這個功能還是蠻有意思、蠻有價值的。
如下圖所示,左邊是處理前的效果,右邊是處理之后的。這個功能可以提升動態(tài)范圍,對高光進行抑制,對暗部進行提亮。
視頻畫質提升的技術,對老師端或者主播端非常有價值。一些專業(yè)的主播,設備非常齊全,把手機架到補光燈上,希望自己的臉更精致透亮。但是長期使用補光燈對眼睛的傷害還是比較大的,所以我們做了純AI軟件補光燈方案。一套是全局的補光方案,還有一套是專門針對人臉的補光方案。針對人臉的補光方案,會對人臉的膚色進行精準的識別,利用3D打光技術把人臉變得更加透亮。
Face ID技術,在智慧校園也已經開始應用了,這個技術核心難點可能在于誤識率、拒識率指標以及活體檢測。它可以用在線上跟線下的大班課程,比如考勤點名,防止別人代答到這種情況。
最后用金字塔結構總結一下我們的業(yè)務架構,最底層是核心的基礎技術,第二層是基于場景化的解決方案,需要深入了解行業(yè)的特點以及場景化的需求,頂層則是我們基于各個平臺適配的SDK產品,我們可以基于基礎技術做很多業(yè)務層的封裝和開發(fā)。
我一直相信科技改變未來,AI可以為在線教育行業(yè)起到降本增效的作用。AI教育,未來可期。謝謝大家!
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。