4月27-28日,芥末堆在北京舉辦以“中行獨復,教育重構(gòu)科技”為主題的GET2024春季教育科技大會。在4月27日下午的主論壇中,商湯科技數(shù)字文娛事業(yè)部高級產(chǎn)品總監(jiān)李斌以《AI數(shù)字人賦能教育數(shù)字化的“最后一公里”》為題,介紹了商湯科技在過去十年中的積淀和近年來在大模型領域的領先實踐和前沿成果,同時著重分享了教育行業(yè)的落地場景。李斌提到,商湯科技于近日舉辦了技術交流日活動,帶來了全新升級的日日新SenseNova 5.0大模型,其綜合能力全面對標GPT-4 Turbo;同時也開發(fā)和更新了多款產(chǎn)品的矩陣,包含商湯如影數(shù)字人,商湯如影希望通過數(shù)字人+大模型,賦能教育培訓行業(yè)。
以下為演講實錄,經(jīng)編輯:
拿到這個標題時,其實我們有點忐忑。什么是教育行業(yè)的“最后一公里”,什么是教育數(shù)字化的“最后一公里”?我想這不一定是有定論的。所以我問了一下商湯的大模型,看到它給出的答案(下圖)之后,我們的心里也有了譜。
大家從第一句就可以看到,可以將知識更有效地傳遞至每一個學生,這是我們所謂的教育的“最后一公里”。如果從這個角度來看,AI技術的發(fā)展確實可以做到這一點,今天我也會跟大家分享一些具體案例。
首先介紹一下商湯科技,商湯科技有很多領先的人工智能相關算法技術的落地應用。我們的員工中,科研人員占比三分之二。公司已成立10年,我們已經(jīng)在行業(yè)里取得了一些小小的成績,在此不一一贅述。
現(xiàn)在看一家人工智能企業(yè)是否靠譜,核心指標是看算力。目前來說,商湯已經(jīng)于2022年自建了亞洲規(guī)模最大之一的AI超算中心,這也是中國最大的基礎設施之一。我們現(xiàn)在有4.5萬張GPU卡。
算力也是人工智能大模型訓練的保障。商湯的大模型叫做日日新,這個名稱來自于“茍日新,日日新,又日新”。我們覺得它非常契合于人工智能行業(yè)當前日新月異的發(fā)展狀態(tài)。
從技術演進角度來看,這一輪人工智能技術發(fā)展浪潮最關鍵的是深度學習。當前大模型爆發(fā),正是源自產(chǎn)業(yè)界和學術界十幾年來在不同領域?qū)Υ竽P蜕疃葘W習的積累。有一個簡單的比喻,如果RNN模型是蒸汽機,Transformer大模型就是內(nèi)燃機,這是一個從量變到質(zhì)變的過程。從小模型到大模型,變化的永遠是規(guī)模和效率,不變的是深度學習這條路,這也是商湯科技堅持走了近十年的道路。
近期(2024年4月23日)我們發(fā)布了日日新5.0版,這個版本目前來說是中國首個同GPT-4 Turbo大模型進行對標的,現(xiàn)在有6000億參數(shù),我們增強了知識、數(shù)據(jù)和推理代碼能力。在主流的一些客觀評測標準上,我們基本上達到或超越了GPT-4 Turbo的水平。基于日日新大模型體系,我們也開發(fā)了多款產(chǎn)品矩陣,希望能夠賦能各行各業(yè)。
介紹完商湯大模型能力,接下來重點跟大家介紹一下商湯如影數(shù)字人的能力。我們推出商湯如影數(shù)字人的愿景是希望將來每個人都可以擁有一個數(shù)字人,基于日日新的全站式AIGC數(shù)字人生成平臺,產(chǎn)品目前主要具備了四大能力。
第一是AIGC數(shù)字人生成技術,大家看到的像口型驅(qū)動、面部表情、肢體動作自然度……這些都是通過AIGC數(shù)字人技術生成的;第二是語言大模型能力,也就是日日新大模型的能力;第三是語音大模型能力,我們非常重視這個方面,并且于今年4月發(fā)布了針對不同行業(yè)的語音大模型,包括教育行業(yè)、企業(yè)服務行業(yè)、電商行業(yè)優(yōu)化等。第四是AIGC形象生成能力,通過“無中生有”可以使數(shù)字人使用規(guī)避一些版權問題。
這里是如影數(shù)字人整體解決方案的架構(gòu),從下往上看,大家可以看到我們涵蓋了從基礎設施到AI引擎,到如影平臺,再到最終落地的場景,每個環(huán)節(jié)都完成了自研閉環(huán)。
我們最終交付給客戶的產(chǎn)品有兩個系列,用戶可以使用SaaS產(chǎn)品,也就是通過App端或者web端,用手機號就可以進行數(shù)字人平臺注冊;同時也可以通過PasS平臺接口,對接更多B端客戶進行合作;當然也支持一些項目定制。
這個是商湯在推動可信數(shù)字人行業(yè)標準建立上作出的一些貢獻,我們深度參與了中國信息通信研究院(簡稱“中國信通院”)制定的可信數(shù)字人標準,它可以幫助客戶避免形象盜用或一些形象版權問題,真正做到隱私保護和權責可追溯。而說到如影數(shù)字人具體如何制作,為什么會如此逼真?主要源于三個方面。
這里我想介紹一下,我們擁有非常精細的背景分割技術。數(shù)字人形象和聲音克隆過程當中,難免會有一些比較細節(jié)的部分?,F(xiàn)在可以細到什么程度?在商湯算法下的數(shù)字人背景分割可以做到發(fā)絲級別的處理。經(jīng)過多年研究,我們發(fā)現(xiàn)數(shù)字人的實現(xiàn)過程中,核心都是細節(jié),細節(jié)堆疊越多、處理越好,用戶的感受才能更加真實。另外,我們今年計劃重點提升語言和動作的匹配,使數(shù)字人可以有更豐富的情緒表達。
接下來,我們一起來看看教育行業(yè)相關的應用案例,也希望收獲更多來自大家的反饋。
場景一,讓課程視頻制作更快更便捷。如果有了數(shù)字人形象并在此基礎上添加大模型生成的文本,就可以快速生成教師的課件。同時我們也配置了相應的海量模板,如果老師有自己的課件,便可以通過上傳課件快速生成自己的數(shù)字人視頻課程。這個場景已經(jīng)在落地了,而且力度非常大。
場景二,輕松制作名師推廣視頻。我們會和一些教育行業(yè)的客戶合作做一些營銷類視頻,我認為現(xiàn)在教育行業(yè)獲客的成本還是蠻高的,如果客戶有自己數(shù)字人的形象,也可以快速生成一些名師推廣視頻。
場景三,名師AI直播永不下線。AI直播課程現(xiàn)在也非常多,在這個領域我們大概能提供這幾個優(yōu)勢:首先是不間斷授課;其次是更高效地開課;第三是教師矩陣管理;第四是我們目前已經(jīng)同商湯如影和日日新大模型整合實現(xiàn)了實時師生互動,這非常關鍵;當然我們也支持多語言和助教模式,包括主講教師和助教老師同時在線的直播效果。
具體介紹一下直播互動功能,直播互動功能有四種,這四種功能都是和各個直播平臺打通的。第一是助教接管,可在直播過程中隨時接管數(shù)字人,使用麥克風口播驅(qū)動數(shù)字人直播實時回答用戶的問題;第二是彈幕互動,我們支持抓取直播間彈幕,數(shù)字人可以自動回答彈幕問題;第三是事件互動,數(shù)字人可以依據(jù)課堂直播間人數(shù)、直播間評論數(shù)等直播間事件觸發(fā)互動;第四是定時互動,可實現(xiàn)定時隨機在直播間插入互動。
第四個場景是一對一專屬助教在線答疑解惑,第五是外語口語教學一對一陪練。
現(xiàn)階段外語教學陪練是大模型和數(shù)字人相結(jié)合的一個非常前沿的領域。這其中最關鍵的是要做到快速響應,也正是因為數(shù)字人產(chǎn)品體系和商湯日日新產(chǎn)品體系的打通,才能實現(xiàn)快速反饋的效果,目前可以做到2-3秒,比較接近于和真人互動的感覺。場景六是3D數(shù)字人和元宇宙讓課堂更多樣,使課堂氛圍更加活躍。
以上是我今天的分享內(nèi)容,非常希望將來能和大家有更多合作,歡迎交流!
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。