4月27-28日,芥末堆在北京舉辦以“中行獨(dú)復(fù),教育重構(gòu)科技”為主題的GET2024春季教育科技大會(huì)。在4月27日下午的主論壇中,商湯科技數(shù)字文娛事業(yè)部高級(jí)產(chǎn)品總監(jiān)李斌以《AI數(shù)字人賦能教育數(shù)字化的“最后一公里”》為題,介紹了商湯科技在過(guò)去十年中的積淀和近年來(lái)在大模型領(lǐng)域的領(lǐng)先實(shí)踐和前沿成果,同時(shí)著重分享了教育行業(yè)的落地場(chǎng)景。李斌提到,商湯科技于近日舉辦了技術(shù)交流日活動(dòng),帶來(lái)了全新升級(jí)的日日新SenseNova 5.0大模型,其綜合能力全面對(duì)標(biāo)GPT-4 Turbo;同時(shí)也開發(fā)和更新了多款產(chǎn)品的矩陣,包含商湯如影數(shù)字人,商湯如影希望通過(guò)數(shù)字人+大模型,賦能教育培訓(xùn)行業(yè)。
以下為演講實(shí)錄,經(jīng)編輯:
拿到這個(gè)標(biāo)題時(shí),其實(shí)我們有點(diǎn)忐忑。什么是教育行業(yè)的“最后一公里”,什么是教育數(shù)字化的“最后一公里”?我想這不一定是有定論的。所以我問(wèn)了一下商湯的大模型,看到它給出的答案(下圖)之后,我們的心里也有了譜。
大家從第一句就可以看到,可以將知識(shí)更有效地傳遞至每一個(gè)學(xué)生,這是我們所謂的教育的“最后一公里”。如果從這個(gè)角度來(lái)看,AI技術(shù)的發(fā)展確實(shí)可以做到這一點(diǎn),今天我也會(huì)跟大家分享一些具體案例。
首先介紹一下商湯科技,商湯科技有很多領(lǐng)先的人工智能相關(guān)算法技術(shù)的落地應(yīng)用。我們的員工中,科研人員占比三分之二。公司已成立10年,我們已經(jīng)在行業(yè)里取得了一些小小的成績(jī),在此不一一贅述。
現(xiàn)在看一家人工智能企業(yè)是否靠譜,核心指標(biāo)是看算力。目前來(lái)說(shuō),商湯已經(jīng)于2022年自建了亞洲規(guī)模最大之一的AI超算中心,這也是中國(guó)最大的基礎(chǔ)設(shè)施之一。我們現(xiàn)在有4.5萬(wàn)張GPU卡。
算力也是人工智能大模型訓(xùn)練的保障。商湯的大模型叫做日日新,這個(gè)名稱來(lái)自于“茍日新,日日新,又日新”。我們覺得它非常契合于人工智能行業(yè)當(dāng)前日新月異的發(fā)展?fàn)顟B(tài)。
從技術(shù)演進(jìn)角度來(lái)看,這一輪人工智能技術(shù)發(fā)展浪潮最關(guān)鍵的是深度學(xué)習(xí)。當(dāng)前大模型爆發(fā),正是源自產(chǎn)業(yè)界和學(xué)術(shù)界十幾年來(lái)在不同領(lǐng)域?qū)Υ竽P蜕疃葘W(xué)習(xí)的積累。有一個(gè)簡(jiǎn)單的比喻,如果RNN模型是蒸汽機(jī),Transformer大模型就是內(nèi)燃機(jī),這是一個(gè)從量變到質(zhì)變的過(guò)程。從小模型到大模型,變化的永遠(yuǎn)是規(guī)模和效率,不變的是深度學(xué)習(xí)這條路,這也是商湯科技堅(jiān)持走了近十年的道路。
近期(2024年4月23日)我們發(fā)布了日日新5.0版,這個(gè)版本目前來(lái)說(shuō)是中國(guó)首個(gè)同GPT-4 Turbo大模型進(jìn)行對(duì)標(biāo)的,現(xiàn)在有6000億參數(shù),我們?cè)鰪?qiáng)了知識(shí)、數(shù)據(jù)和推理代碼能力。在主流的一些客觀評(píng)測(cè)標(biāo)準(zhǔn)上,我們基本上達(dá)到或超越了GPT-4 Turbo的水平?;谌杖招麓竽P腕w系,我們也開發(fā)了多款產(chǎn)品矩陣,希望能夠賦能各行各業(yè)。
介紹完商湯大模型能力,接下來(lái)重點(diǎn)跟大家介紹一下商湯如影數(shù)字人的能力。我們推出商湯如影數(shù)字人的愿景是希望將來(lái)每個(gè)人都可以擁有一個(gè)數(shù)字人,基于日日新的全站式AIGC數(shù)字人生成平臺(tái),產(chǎn)品目前主要具備了四大能力。
第一是AIGC數(shù)字人生成技術(shù),大家看到的像口型驅(qū)動(dòng)、面部表情、肢體動(dòng)作自然度……這些都是通過(guò)AIGC數(shù)字人技術(shù)生成的;第二是語(yǔ)言大模型能力,也就是日日新大模型的能力;第三是語(yǔ)音大模型能力,我們非常重視這個(gè)方面,并且于今年4月發(fā)布了針對(duì)不同行業(yè)的語(yǔ)音大模型,包括教育行業(yè)、企業(yè)服務(wù)行業(yè)、電商行業(yè)優(yōu)化等。第四是AIGC形象生成能力,通過(guò)“無(wú)中生有”可以使數(shù)字人使用規(guī)避一些版權(quán)問(wèn)題。
這里是如影數(shù)字人整體解決方案的架構(gòu),從下往上看,大家可以看到我們涵蓋了從基礎(chǔ)設(shè)施到AI引擎,到如影平臺(tái),再到最終落地的場(chǎng)景,每個(gè)環(huán)節(jié)都完成了自研閉環(huán)。
我們最終交付給客戶的產(chǎn)品有兩個(gè)系列,用戶可以使用SaaS產(chǎn)品,也就是通過(guò)App端或者web端,用手機(jī)號(hào)就可以進(jìn)行數(shù)字人平臺(tái)注冊(cè);同時(shí)也可以通過(guò)PasS平臺(tái)接口,對(duì)接更多B端客戶進(jìn)行合作;當(dāng)然也支持一些項(xiàng)目定制。
這個(gè)是商湯在推動(dòng)可信數(shù)字人行業(yè)標(biāo)準(zhǔn)建立上作出的一些貢獻(xiàn),我們深度參與了中國(guó)信息通信研究院(簡(jiǎn)稱“中國(guó)信通院”)制定的可信數(shù)字人標(biāo)準(zhǔn),它可以幫助客戶避免形象盜用或一些形象版權(quán)問(wèn)題,真正做到隱私保護(hù)和權(quán)責(zé)可追溯。而說(shuō)到如影數(shù)字人具體如何制作,為什么會(huì)如此逼真?主要源于三個(gè)方面。
這里我想介紹一下,我們擁有非常精細(xì)的背景分割技術(shù)。數(shù)字人形象和聲音克隆過(guò)程當(dāng)中,難免會(huì)有一些比較細(xì)節(jié)的部分?,F(xiàn)在可以細(xì)到什么程度?在商湯算法下的數(shù)字人背景分割可以做到發(fā)絲級(jí)別的處理。經(jīng)過(guò)多年研究,我們發(fā)現(xiàn)數(shù)字人的實(shí)現(xiàn)過(guò)程中,核心都是細(xì)節(jié),細(xì)節(jié)堆疊越多、處理越好,用戶的感受才能更加真實(shí)。另外,我們今年計(jì)劃重點(diǎn)提升語(yǔ)言和動(dòng)作的匹配,使數(shù)字人可以有更豐富的情緒表達(dá)。
接下來(lái),我們一起來(lái)看看教育行業(yè)相關(guān)的應(yīng)用案例,也希望收獲更多來(lái)自大家的反饋。
場(chǎng)景一,讓課程視頻制作更快更便捷。如果有了數(shù)字人形象并在此基礎(chǔ)上添加大模型生成的文本,就可以快速生成教師的課件。同時(shí)我們也配置了相應(yīng)的海量模板,如果老師有自己的課件,便可以通過(guò)上傳課件快速生成自己的數(shù)字人視頻課程。這個(gè)場(chǎng)景已經(jīng)在落地了,而且力度非常大。
場(chǎng)景二,輕松制作名師推廣視頻。我們會(huì)和一些教育行業(yè)的客戶合作做一些營(yíng)銷類視頻,我認(rèn)為現(xiàn)在教育行業(yè)獲客的成本還是蠻高的,如果客戶有自己數(shù)字人的形象,也可以快速生成一些名師推廣視頻。
場(chǎng)景三,名師AI直播永不下線。AI直播課程現(xiàn)在也非常多,在這個(gè)領(lǐng)域我們大概能提供這幾個(gè)優(yōu)勢(shì):首先是不間斷授課;其次是更高效地開課;第三是教師矩陣管理;第四是我們目前已經(jīng)同商湯如影和日日新大模型整合實(shí)現(xiàn)了實(shí)時(shí)師生互動(dòng),這非常關(guān)鍵;當(dāng)然我們也支持多語(yǔ)言和助教模式,包括主講教師和助教老師同時(shí)在線的直播效果。
具體介紹一下直播互動(dòng)功能,直播互動(dòng)功能有四種,這四種功能都是和各個(gè)直播平臺(tái)打通的。第一是助教接管,可在直播過(guò)程中隨時(shí)接管數(shù)字人,使用麥克風(fēng)口播驅(qū)動(dòng)數(shù)字人直播實(shí)時(shí)回答用戶的問(wèn)題;第二是彈幕互動(dòng),我們支持抓取直播間彈幕,數(shù)字人可以自動(dòng)回答彈幕問(wèn)題;第三是事件互動(dòng),數(shù)字人可以依據(jù)課堂直播間人數(shù)、直播間評(píng)論數(shù)等直播間事件觸發(fā)互動(dòng);第四是定時(shí)互動(dòng),可實(shí)現(xiàn)定時(shí)隨機(jī)在直播間插入互動(dòng)。
第四個(gè)場(chǎng)景是一對(duì)一專屬助教在線答疑解惑,第五是外語(yǔ)口語(yǔ)教學(xué)一對(duì)一陪練。
現(xiàn)階段外語(yǔ)教學(xué)陪練是大模型和數(shù)字人相結(jié)合的一個(gè)非常前沿的領(lǐng)域。這其中最關(guān)鍵的是要做到快速響應(yīng),也正是因?yàn)閿?shù)字人產(chǎn)品體系和商湯日日新產(chǎn)品體系的打通,才能實(shí)現(xiàn)快速反饋的效果,目前可以做到2-3秒,比較接近于和真人互動(dòng)的感覺。場(chǎng)景六是3D數(shù)字人和元宇宙讓課堂更多樣,使課堂氛圍更加活躍。
以上是我今天的分享內(nèi)容,非常希望將來(lái)能和大家有更多合作,歡迎交流!
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。