聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮在GET2024分享
11月11日至12日,芥末堆在北京舉辦以“新質(zhì)學(xué)習(xí)力,通向更美好的教育未來”為主題的GET2024教育科技大會(huì)。在11日的領(lǐng)袖論壇上,聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢奮就《AI + RTE 驅(qū)動(dòng)教育產(chǎn)品的顛覆式創(chuàng)新機(jī)遇》進(jìn)行了主題分享。
以下為演講實(shí)錄,經(jīng)編輯:
熟悉聲網(wǎng)的朋友知道,聲網(wǎng)不是一家教育公司,而是一家全球化技術(shù)公司,我們?yōu)槿虻目蛻籼峁?shí)時(shí)互動(dòng)的技術(shù)方案,滿足他們對(duì)實(shí)時(shí)互動(dòng)的需求。今天想跟大家分享AI+RTE實(shí)時(shí)互動(dòng)技術(shù)會(huì)帶來什么改變,特別是對(duì)教育行業(yè)來說。
今天的演講分為四個(gè)部分:
一、聲網(wǎng)介紹
二、生成式AI時(shí)代的趨勢(shì)和發(fā)展方向
三、AI+RTE催生教育新機(jī)遇
四、聲網(wǎng)AI Agent服務(wù)平臺(tái)
一、聲網(wǎng)介紹
聲網(wǎng)專注于RTE實(shí)時(shí)互動(dòng)領(lǐng)域,是該領(lǐng)域的開創(chuàng)者,定義這個(gè)賽道的玩法和業(yè)務(wù),我們還有首創(chuàng)全球?qū)崟r(shí)互聯(lián)網(wǎng)SD-RTN?。
作為RTE行業(yè)的領(lǐng)導(dǎo)者,聲網(wǎng)的市場(chǎng)占有率穩(wěn)居第一,我們有50多項(xiàng)自主創(chuàng)新專利,全球注冊(cè)應(yīng)用數(shù)74.2萬+,單月支撐通話分鐘數(shù)700億+。
聲網(wǎng)RTE圖譜顯示,聲網(wǎng)已經(jīng)覆蓋20+行業(yè)和200+場(chǎng)景。和教育相關(guān)的在線教育的所有場(chǎng)景,包括1對(duì)1、小班課、大班課、AI自習(xí)室、在線自習(xí)室,聲網(wǎng)都有覆蓋到。
二、生成式 AI 時(shí)代的趨勢(shì)和發(fā)展方向
AI這兩年發(fā)展非常快,為各行各業(yè)帶來了很多變化,一些行業(yè)甚至受到了較大的沖擊。在我們看來,隨著AI發(fā)展,教育行業(yè)是受益較多的行業(yè)。生成式AI到來之后,出現(xiàn)了幾大趨勢(shì):
趨勢(shì)一:終端的進(jìn)化將以對(duì)大模型的能力支持為核心驅(qū)動(dòng)。大模型對(duì)語音、實(shí)時(shí)圖像、自然語言有非常強(qiáng)的理解力,能使終端和交付變得更加自然和流暢。以預(yù)訂機(jī)票為例,傳統(tǒng)的方式一步一步操作,但是當(dāng)手機(jī)變成私人助理,人們對(duì)手機(jī)說訂明天去北京的機(jī)票,手機(jī)就會(huì)根據(jù)日歷和行程,直接推薦航班。
趨勢(shì)二:所有軟件都可以或?qū)?huì)用大模型重新實(shí)現(xiàn)。這也是基于大模型本身非常強(qiáng)大的通用力。所有的軟件可以依賴于大模型能力,優(yōu)化場(chǎng)景、功能。舉一個(gè)例子,目前的一些CRM系統(tǒng)都有這樣的能力,可以精準(zhǔn)分析所有客戶的資料,并且為銷售人員提供非常精準(zhǔn)的銷售策略,從而大大提高銷售效率和客戶滿意度。
趨勢(shì)三:所有云都需要具備對(duì)大模型訓(xùn)練和推理的能力。所有大模型訓(xùn)練和推理能力需要大量的計(jì)算資源,云有天生的彈縮能力,企業(yè)可以配置一些資源,并不需要購(gòu)買非常昂貴的實(shí)體資源,云會(huì)有非常好的數(shù)據(jù)安全合規(guī)能力,甚至還可以對(duì)一些AI應(yīng)用快速回應(yīng)。
趨勢(shì)四:人機(jī)界面從鍵盤、鼠標(biāo)、觸屏變成自然語言對(duì)話界面(LUI)。大家可以明顯感受到,以前在與機(jī)器交流的時(shí)候,都是通過圖形、手機(jī)的觸摸來實(shí)現(xiàn),現(xiàn)在人機(jī)交流可以通過對(duì)話式的語音來進(jìn)行,真正貼近人與人交互的流暢。
在聲網(wǎng)看來,生成式AI的發(fā)展中OpenAI帶來了一定的導(dǎo)向性趨勢(shì)。今年5月,GPT-4o發(fā)布,向前邁了一大步,語音交互支持多語音,意味著實(shí)時(shí)語音交互是生成式AI未來的趨勢(shì)方向。今年10月OpenAI發(fā)布實(shí)時(shí)API能力,聲網(wǎng)的兄弟公司Agora也參與了這一次發(fā)布,OpenAI也官宣與Agora聯(lián)合提供API能力。
經(jīng)過對(duì)AI的研究,以及與OpenAI的合作,聲網(wǎng)目前發(fā)現(xiàn)未來生成式AI有兩個(gè)趨勢(shì)、兩大方向。
第一是大模型多模態(tài)能力將會(huì)加速到來。大模型具備高度擬人化特征,具備聽、說、看、寫、繪、思的能力。
第二是RTE成為多模態(tài)應(yīng)用和基礎(chǔ)設(shè)施的關(guān)鍵部分。對(duì)話模式將成為多模態(tài)大模型的主要交互形式,包括對(duì)話式音頻和對(duì)話式視頻。
RTC技術(shù)還有很多優(yōu)勢(shì):
傳輸延時(shí)低:RTC基于智能路由算法,全球網(wǎng)絡(luò)覆蓋,實(shí)現(xiàn)毫秒級(jí)端到端多媒體傳輸延遲,對(duì)比傳統(tǒng)方案秒級(jí)延遲,實(shí)現(xiàn)量級(jí)跨越提升。
支持全雙工通信:RTC在低延遲的基礎(chǔ)上,通過回聲消除能力、VAD能力(語?活動(dòng)檢測(cè))可實(shí)現(xiàn)實(shí)時(shí)流暢的語音的雙講功能,使得交互更加自然、流暢。
弱網(wǎng)質(zhì)量保障:RTC通過弱網(wǎng)對(duì)抗算法以及丟包補(bǔ)償機(jī)制,保證媒體傳輸質(zhì)量平穩(wěn),在極致弱網(wǎng)條件下也能保證通話質(zhì)量,保障ASR識(shí)別率。
音頻降噪效果好:RTC具備成熟的降噪、?動(dòng)增益能力和ASR技術(shù)可以深度配合,準(zhǔn)確過濾背景音,精確識(shí)別?聲,提升語?轉(zhuǎn)文字的識(shí)別準(zhǔn)確率。
高清視頻傳輸:RTC通道在音視頻實(shí)時(shí)傳輸過程中,對(duì)首幀出圖、低卡頓、端到端延時(shí)指標(biāo)等均有較高的體驗(yàn)保障,支持多模態(tài)信息交互。
三、AI+RTE 催生教育新機(jī)遇
AI+RTE技術(shù)正在催生教育新機(jī)遇。多模態(tài)大模型與對(duì)話式交互結(jié)合,等于場(chǎng)景升級(jí)。老場(chǎng)景和老案例包括AI助教備課、AI答疑/智能輔導(dǎo)、AI批改、個(gè)性化推薦。
我們看到很多AI+教育案例已經(jīng)落地。AI備課方面,教師通過輸入一些知識(shí)點(diǎn),就可以用AI大模型生成教案、講義,以前備課需要數(shù)個(gè)小時(shí),現(xiàn)在只需要幾分鐘。
AI智能輔導(dǎo)有利于學(xué)生找到正確答案,也有助于老師給出好的輔導(dǎo)方法。我前兩天看到一個(gè)家長(zhǎng)拿手機(jī)拍孩子的作業(yè),拍的時(shí)候解題過程就全部顯示出來了。此外還有AI作文批改、英語陪練等場(chǎng)景。
AI+教育是大家都想得到的結(jié)果。通過學(xué)生畫像、知識(shí)點(diǎn)、學(xué)生表現(xiàn)、成績(jī),通過大模型的學(xué)情分析,為學(xué)生提供學(xué)習(xí)規(guī)劃、個(gè)性化學(xué)習(xí)目標(biāo)、個(gè)性化教學(xué)內(nèi)容等等,也是未來教育希望抵達(dá)的目的地。
同時(shí)我們也看到了AI+RTE技術(shù)的新場(chǎng)景和新案例,包括AI口語陪練,這與大家理解的陪練不太一樣,現(xiàn)在市面上大多數(shù)是對(duì)講機(jī)模式的溝通和練習(xí),這并不是人與人之間的溝通。如今,AI+RTE已經(jīng)可以模擬人,實(shí)現(xiàn)可以隨時(shí)打斷的AI口語陪練場(chǎng)景,我們已經(jīng)有客戶在提供這樣的服務(wù)。還有AI助手同聲傳譯和AI在線音樂學(xué)習(xí),都需要AI+RTE。
與AI和教育相關(guān)的還有AI智能監(jiān)護(hù),也就是通過音視頻觀察孩子的表現(xiàn),模擬家長(zhǎng)的聲音來陪伴寶寶、監(jiān)護(hù)寶寶。還有AI陪伴學(xué)習(xí)機(jī)器人,可以與三至六歲孩子實(shí)時(shí)互動(dòng),提供情感陪伴。
AI講故事也是客戶的案例,以前大家覺得AI講故事是AI對(duì)我講,或者我對(duì)AI講,而現(xiàn)在的AI講故事是我講一半,AI講一半,我們共創(chuàng)一個(gè)故事,讓整個(gè)場(chǎng)景變得更豐富。
AI+RTE在未來還會(huì)有非常多的新場(chǎng)景出現(xiàn),場(chǎng)景將得到很大的升級(jí)。
四、聲網(wǎng) AI Agent 服務(wù)平臺(tái)
基于AI+RTE實(shí)時(shí)互動(dòng)場(chǎng)景,聲網(wǎng)推出了基于實(shí)時(shí)互動(dòng)的AI Agent服務(wù)平臺(tái)。
聲網(wǎng)AI Agent是一套云邊端一體的PaaS服務(wù),聚焦實(shí)時(shí)音視頻互動(dòng)場(chǎng)景,結(jié)合市場(chǎng)上最優(yōu)秀的模型能力,充分發(fā)揮聲網(wǎng)音視頻算法及 SD-RTN 的傳輸優(yōu)勢(shì),助力中小客戶快速搭建低延遲、高可用的人機(jī)交互應(yīng)用,適用于泛娛樂、教育、企業(yè)協(xié)作等多個(gè)行業(yè)場(chǎng)景。
AI Agent具備四大核心優(yōu)勢(shì),在體驗(yàn)和成本方面進(jìn)一步優(yōu)化。
低延遲:通過聲網(wǎng)自研語音識(shí)別及處理技術(shù),實(shí)現(xiàn)更細(xì)粒度的語音切割,智能體對(duì)話端到端延遲低至500ms,同聲傳譯尾字到尾字延遲<4s。
極致擬真:聲網(wǎng)自研AI VAD技術(shù),適應(yīng)人類對(duì)話的停頓、語氣和對(duì)話節(jié)奏,支持AI對(duì)話過程中隨時(shí)打斷,深度優(yōu)化AI角色,最大程度保留情緒情感等關(guān)鍵信息,語音合成音色更逼真。
低成本接入:很多教育公司在研發(fā)投入上比較謹(jǐn)慎,這個(gè)方案成本可控,客戶無需單獨(dú)部署推拉流服務(wù),簡(jiǎn)單調(diào)用Agent接口,即可將智能體快速集成到客戶的實(shí)時(shí)互動(dòng)業(yè)務(wù)中,極大地降低了開發(fā)和服務(wù)成本。
業(yè)務(wù)高度靈活:提供20+音視頻高級(jí)引擎及AI算法積木,客戶可根據(jù)業(yè)務(wù)需求,任意拼插,同時(shí)支持通用模板和自定義模板配置。
這是聲網(wǎng)的RTE+AI能力全景圖,我們相信未來十年內(nèi),能用RTE+AI支持更多的場(chǎng)景,我們也希望更多的教育客戶與我們共創(chuàng)場(chǎng)景。
這是聲網(wǎng)目前合作的全球合作商,我們希望可以成為最受歡迎的實(shí)時(shí)互動(dòng)云服務(wù)商。
今年是聲網(wǎng)成立十周年,我們始終保持初心。我們的愿景是幫助人們跨越距離實(shí)時(shí)互動(dòng),如聚一堂,我們的使命是讓實(shí)時(shí)互動(dòng)像空氣和水一樣無處不在。
掃描二維碼即可獲取演講嘉賓PPT
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。