聲網(wǎng)教育行業(yè)負責(zé)人錢奮在GET2024分享
11月11日至12日,芥末堆在北京舉辦以“新質(zhì)學(xué)習(xí)力,通向更美好的教育未來”為主題的GET2024教育科技大會。在11日的領(lǐng)袖論壇上,聲網(wǎng)教育行業(yè)負責(zé)人錢奮就《AI + RTE 驅(qū)動教育產(chǎn)品的顛覆式創(chuàng)新機遇》進行了主題分享。
以下為演講實錄,經(jīng)編輯:
熟悉聲網(wǎng)的朋友知道,聲網(wǎng)不是一家教育公司,而是一家全球化技術(shù)公司,我們?yōu)槿虻目蛻籼峁崟r互動的技術(shù)方案,滿足他們對實時互動的需求。今天想跟大家分享AI+RTE實時互動技術(shù)會帶來什么改變,特別是對教育行業(yè)來說。
今天的演講分為四個部分:
一、聲網(wǎng)介紹
二、生成式AI時代的趨勢和發(fā)展方向
三、AI+RTE催生教育新機遇
四、聲網(wǎng)AI Agent服務(wù)平臺
一、聲網(wǎng)介紹
聲網(wǎng)專注于RTE實時互動領(lǐng)域,是該領(lǐng)域的開創(chuàng)者,定義這個賽道的玩法和業(yè)務(wù),我們還有首創(chuàng)全球?qū)崟r互聯(lián)網(wǎng)SD-RTN?。
作為RTE行業(yè)的領(lǐng)導(dǎo)者,聲網(wǎng)的市場占有率穩(wěn)居第一,我們有50多項自主創(chuàng)新專利,全球注冊應(yīng)用數(shù)74.2萬+,單月支撐通話分鐘數(shù)700億+。
聲網(wǎng)RTE圖譜顯示,聲網(wǎng)已經(jīng)覆蓋20+行業(yè)和200+場景。和教育相關(guān)的在線教育的所有場景,包括1對1、小班課、大班課、AI自習(xí)室、在線自習(xí)室,聲網(wǎng)都有覆蓋到。
二、生成式 AI 時代的趨勢和發(fā)展方向
AI這兩年發(fā)展非常快,為各行各業(yè)帶來了很多變化,一些行業(yè)甚至受到了較大的沖擊。在我們看來,隨著AI發(fā)展,教育行業(yè)是受益較多的行業(yè)。生成式AI到來之后,出現(xiàn)了幾大趨勢:
趨勢一:終端的進化將以對大模型的能力支持為核心驅(qū)動。大模型對語音、實時圖像、自然語言有非常強的理解力,能使終端和交付變得更加自然和流暢。以預(yù)訂機票為例,傳統(tǒng)的方式一步一步操作,但是當(dāng)手機變成私人助理,人們對手機說訂明天去北京的機票,手機就會根據(jù)日歷和行程,直接推薦航班。
趨勢二:所有軟件都可以或?qū)么竽P椭匦聦崿F(xiàn)。這也是基于大模型本身非常強大的通用力。所有的軟件可以依賴于大模型能力,優(yōu)化場景、功能。舉一個例子,目前的一些CRM系統(tǒng)都有這樣的能力,可以精準分析所有客戶的資料,并且為銷售人員提供非常精準的銷售策略,從而大大提高銷售效率和客戶滿意度。
趨勢三:所有云都需要具備對大模型訓(xùn)練和推理的能力。所有大模型訓(xùn)練和推理能力需要大量的計算資源,云有天生的彈縮能力,企業(yè)可以配置一些資源,并不需要購買非常昂貴的實體資源,云會有非常好的數(shù)據(jù)安全合規(guī)能力,甚至還可以對一些AI應(yīng)用快速回應(yīng)。
趨勢四:人機界面從鍵盤、鼠標、觸屏變成自然語言對話界面(LUI)。大家可以明顯感受到,以前在與機器交流的時候,都是通過圖形、手機的觸摸來實現(xiàn),現(xiàn)在人機交流可以通過對話式的語音來進行,真正貼近人與人交互的流暢。
在聲網(wǎng)看來,生成式AI的發(fā)展中OpenAI帶來了一定的導(dǎo)向性趨勢。今年5月,GPT-4o發(fā)布,向前邁了一大步,語音交互支持多語音,意味著實時語音交互是生成式AI未來的趨勢方向。今年10月OpenAI發(fā)布實時API能力,聲網(wǎng)的兄弟公司Agora也參與了這一次發(fā)布,OpenAI也官宣與Agora聯(lián)合提供API能力。
經(jīng)過對AI的研究,以及與OpenAI的合作,聲網(wǎng)目前發(fā)現(xiàn)未來生成式AI有兩個趨勢、兩大方向。
第一是大模型多模態(tài)能力將會加速到來。大模型具備高度擬人化特征,具備聽、說、看、寫、繪、思的能力。
第二是RTE成為多模態(tài)應(yīng)用和基礎(chǔ)設(shè)施的關(guān)鍵部分。對話模式將成為多模態(tài)大模型的主要交互形式,包括對話式音頻和對話式視頻。
RTC技術(shù)還有很多優(yōu)勢:
傳輸延時低:RTC基于智能路由算法,全球網(wǎng)絡(luò)覆蓋,實現(xiàn)毫秒級端到端多媒體傳輸延遲,對比傳統(tǒng)方案秒級延遲,實現(xiàn)量級跨越提升。
支持全雙工通信:RTC在低延遲的基礎(chǔ)上,通過回聲消除能力、VAD能力(語?活動檢測)可實現(xiàn)實時流暢的語音的雙講功能,使得交互更加自然、流暢。
弱網(wǎng)質(zhì)量保障:RTC通過弱網(wǎng)對抗算法以及丟包補償機制,保證媒體傳輸質(zhì)量平穩(wěn),在極致弱網(wǎng)條件下也能保證通話質(zhì)量,保障ASR識別率。
音頻降噪效果好:RTC具備成熟的降噪、?動增益能力和ASR技術(shù)可以深度配合,準確過濾背景音,精確識別?聲,提升語?轉(zhuǎn)文字的識別準確率。
高清視頻傳輸:RTC通道在音視頻實時傳輸過程中,對首幀出圖、低卡頓、端到端延時指標等均有較高的體驗保障,支持多模態(tài)信息交互。
三、AI+RTE 催生教育新機遇
AI+RTE技術(shù)正在催生教育新機遇。多模態(tài)大模型與對話式交互結(jié)合,等于場景升級。老場景和老案例包括AI助教備課、AI答疑/智能輔導(dǎo)、AI批改、個性化推薦。
我們看到很多AI+教育案例已經(jīng)落地。AI備課方面,教師通過輸入一些知識點,就可以用AI大模型生成教案、講義,以前備課需要數(shù)個小時,現(xiàn)在只需要幾分鐘。
AI智能輔導(dǎo)有利于學(xué)生找到正確答案,也有助于老師給出好的輔導(dǎo)方法。我前兩天看到一個家長拿手機拍孩子的作業(yè),拍的時候解題過程就全部顯示出來了。此外還有AI作文批改、英語陪練等場景。
AI+教育是大家都想得到的結(jié)果。通過學(xué)生畫像、知識點、學(xué)生表現(xiàn)、成績,通過大模型的學(xué)情分析,為學(xué)生提供學(xué)習(xí)規(guī)劃、個性化學(xué)習(xí)目標、個性化教學(xué)內(nèi)容等等,也是未來教育希望抵達的目的地。
同時我們也看到了AI+RTE技術(shù)的新場景和新案例,包括AI口語陪練,這與大家理解的陪練不太一樣,現(xiàn)在市面上大多數(shù)是對講機模式的溝通和練習(xí),這并不是人與人之間的溝通。如今,AI+RTE已經(jīng)可以模擬人,實現(xiàn)可以隨時打斷的AI口語陪練場景,我們已經(jīng)有客戶在提供這樣的服務(wù)。還有AI助手同聲傳譯和AI在線音樂學(xué)習(xí),都需要AI+RTE。
與AI和教育相關(guān)的還有AI智能監(jiān)護,也就是通過音視頻觀察孩子的表現(xiàn),模擬家長的聲音來陪伴寶寶、監(jiān)護寶寶。還有AI陪伴學(xué)習(xí)機器人,可以與三至六歲孩子實時互動,提供情感陪伴。
AI講故事也是客戶的案例,以前大家覺得AI講故事是AI對我講,或者我對AI講,而現(xiàn)在的AI講故事是我講一半,AI講一半,我們共創(chuàng)一個故事,讓整個場景變得更豐富。
AI+RTE在未來還會有非常多的新場景出現(xiàn),場景將得到很大的升級。
四、聲網(wǎng) AI Agent 服務(wù)平臺
基于AI+RTE實時互動場景,聲網(wǎng)推出了基于實時互動的AI Agent服務(wù)平臺。
聲網(wǎng)AI Agent是一套云邊端一體的PaaS服務(wù),聚焦實時音視頻互動場景,結(jié)合市場上最優(yōu)秀的模型能力,充分發(fā)揮聲網(wǎng)音視頻算法及 SD-RTN 的傳輸優(yōu)勢,助力中小客戶快速搭建低延遲、高可用的人機交互應(yīng)用,適用于泛娛樂、教育、企業(yè)協(xié)作等多個行業(yè)場景。
AI Agent具備四大核心優(yōu)勢,在體驗和成本方面進一步優(yōu)化。
低延遲:通過聲網(wǎng)自研語音識別及處理技術(shù),實現(xiàn)更細粒度的語音切割,智能體對話端到端延遲低至500ms,同聲傳譯尾字到尾字延遲<4s。
極致擬真:聲網(wǎng)自研AI VAD技術(shù),適應(yīng)人類對話的停頓、語氣和對話節(jié)奏,支持AI對話過程中隨時打斷,深度優(yōu)化AI角色,最大程度保留情緒情感等關(guān)鍵信息,語音合成音色更逼真。
低成本接入:很多教育公司在研發(fā)投入上比較謹慎,這個方案成本可控,客戶無需單獨部署推拉流服務(wù),簡單調(diào)用Agent接口,即可將智能體快速集成到客戶的實時互動業(yè)務(wù)中,極大地降低了開發(fā)和服務(wù)成本。
業(yè)務(wù)高度靈活:提供20+音視頻高級引擎及AI算法積木,客戶可根據(jù)業(yè)務(wù)需求,任意拼插,同時支持通用模板和自定義模板配置。
這是聲網(wǎng)的RTE+AI能力全景圖,我們相信未來十年內(nèi),能用RTE+AI支持更多的場景,我們也希望更多的教育客戶與我們共創(chuàng)場景。
這是聲網(wǎng)目前合作的全球合作商,我們希望可以成為最受歡迎的實時互動云服務(wù)商。
今年是聲網(wǎng)成立十周年,我們始終保持初心。我們的愿景是幫助人們跨越距離實時互動,如聚一堂,我們的使命是讓實時互動像空氣和水一樣無處不在。
掃描二維碼即可獲取演講嘉賓PPT
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。