4月27-28日,芥末堆在北京舉辦以“中行獨(dú)復(fù),教育重構(gòu)科技”為主題的GET2024春季教育科技大會(huì)。在4月27日下午的主論壇中,學(xué)而思技術(shù)總監(jiān)、MathGPT負(fù)責(zé)人白錦峰以《基于Verifier的九章大模型(MathGPT)業(yè)務(wù)落地應(yīng)用》為題進(jìn)行了內(nèi)容分享。
白錦峰首先分享了學(xué)而思為什么從數(shù)學(xué)切入做大模型,其中一個(gè)主要原因是數(shù)學(xué)是攻克大語(yǔ)言模型技術(shù)難點(diǎn)的天然好場(chǎng)景。此外,白錦峰還分析了通用模型與垂類模型各自的困境、MathGPT的訓(xùn)練過程,以及MathGPT訓(xùn)練中遇到的困難。
白錦峰表示,“學(xué)而思將K12全科的評(píng)估集合公開給業(yè)內(nèi),期待共同推動(dòng)教育大模型的進(jìn)步。同時(shí),我們也發(fā)表了大模型數(shù)學(xué)論文,希望促進(jìn)教育技術(shù)進(jìn)步?!?/p>
以下為演講實(shí)錄,經(jīng)編輯:
我今天分享的題目是《基于Verifier的九章大模型(MathGPT)業(yè)務(wù)落地應(yīng)用》。“Verifier”直譯過來(lái)是“驗(yàn)證器”。我們都知道大模型有幻覺,當(dāng)大模型應(yīng)用于教育的時(shí)候,幻覺問題是一個(gè)核心卡點(diǎn),因此我們需要通過一種方法解決它,而引入Verifier是可行方式之一。
眾所周知,國(guó)內(nèi)外做大模型的機(jī)構(gòu)非常多,如果大家留心去看各家大模型的切入點(diǎn),絕大部分都是從語(yǔ)言、對(duì)話切入,這是為什么呢?因?yàn)镃hatGPT在語(yǔ)言方面表現(xiàn)出驚人的天賦,所以大家群起追隨,但我們另辟蹊徑,從數(shù)學(xué)切入。我們的大模型的中文名字是“九章大模型”,與《九章算術(shù)》里的“九章”一樣,英文是“MathGPT”。
為什么是Math?
我們?nèi)ツ曜鯩athGPT的時(shí)候,很多大模型領(lǐng)域的專家、學(xué)者以及領(lǐng)導(dǎo)過來(lái),他們問的第一個(gè)問題是“為什么你們要做數(shù)學(xué)?”“大模型做數(shù)學(xué)這條路可行嗎?”今天在這里回答一下我們?yōu)槭裁匆鰯?shù)學(xué)這個(gè)問題。
首先,做數(shù)學(xué)的出發(fā)點(diǎn)是利他。數(shù)學(xué)是大語(yǔ)言模型最弱的地方,有時(shí)候連簡(jiǎn)單的加減乘除都算不對(duì),但孩子學(xué)數(shù)學(xué)非常重要,大模型也需要教,于是我們選擇數(shù)學(xué)作為切入口。
而且,數(shù)學(xué)是攻克大語(yǔ)言模型天然好場(chǎng)景。ChatGPT火之前有一篇論文是這么說的,我們已經(jīng)觀察到大模型具有所謂的涌現(xiàn)能力,什么是“涌現(xiàn)”?當(dāng)模型在做一個(gè)數(shù)學(xué)問題,以及8位數(shù)的加法,參數(shù)從百億(10B)到千億(100B)以上的大規(guī)模之后,這個(gè)能力突然開始出現(xiàn),這就是“涌現(xiàn)”。
大模型里為什么會(huì)提到“涌現(xiàn)”?大模型任務(wù)已經(jīng)非常復(fù)雜,復(fù)雜到了很多時(shí)候并不能以傳統(tǒng)的分析學(xué)或分析解構(gòu)的視角去思考,于是就有了“涌現(xiàn)”。
涌現(xiàn)這個(gè)詞來(lái)自復(fù)雜科學(xué),技術(shù)領(lǐng)域很少見,生命就是典型的復(fù)雜科學(xué)。 研究復(fù)雜科學(xué)的規(guī)律,實(shí)驗(yàn)素材的選擇至關(guān)重要。孟德爾之所以能夠發(fā)現(xiàn)遺傳三定律,至關(guān)重要的原因是選擇了豌豆,豌豆“閉花傳粉,自花授粉”在有性生殖的物種中是一個(gè)特殊的存在。遺傳底層的真相是父母基因的組合違反絕大部分人對(duì)遺傳的直覺,也就是遺傳底層是“量子化”的,而不是連續(xù)的。
回過頭來(lái)說,數(shù)學(xué)是不是我們解決大模型里面的豌豆,是不是那個(gè)好場(chǎng)景?
大家都知道ChatGPT是通過預(yù)測(cè)下一個(gè)詞來(lái)決定它如何學(xué)習(xí)。大模型現(xiàn)在唯一Work的第一性原理是:通過預(yù)測(cè)下一個(gè)詞去Scale,站在語(yǔ)言模型的視角是合理的。那么,從數(shù)學(xué)的視角還合理嗎?
舉個(gè)例子,我們都知道高考會(huì)考填空題。如果做高考的填空題也是通過預(yù)測(cè)下一個(gè)詞的方式,這顯然有問題。為什么?因?yàn)榧词箍忌锨迦A、北大,或哈佛、耶魯?shù)膶W(xué)生,也沒有可能看完一個(gè)題目之后,就填出答案,即使聰明的人類,也一定需要詳細(xì)的思考步驟,才能解決問題。不是說前后詞之間沒有關(guān)系,而是不能直接預(yù)測(cè)出來(lái)。
還有大語(yǔ)言模型主要靠抓取互聯(lián)網(wǎng)上的語(yǔ)料來(lái)預(yù)訓(xùn)練得到的,訓(xùn)練之后再做微調(diào)。這個(gè)過程乍一看挺對(duì)的,但仔細(xì)一想其實(shí)有問題。因?yàn)樗僭O(shè)了我們?nèi)康闹R(shí)都是線上化的。雖然互聯(lián)網(wǎng)已經(jīng)發(fā)展了20年,但還有很多知識(shí)沒有完成線上化,一旦沒有完成這個(gè)過程,大模型是不可能學(xué)會(huì)的。
仍然以數(shù)學(xué)為例。沒有完成線上化過程的原因,有的是太難,有的是太容易。比如孩子會(huì)做很多的加減乘除算術(shù)題,但在網(wǎng)上很少看到這些題目,因?yàn)檫@樣的過程在搜索、檢索或信息獲取的過程中不提供信息價(jià)值,但大模型需要這樣的知識(shí),孩子的練習(xí)也需要這樣的知識(shí)。因此我們需要補(bǔ)上這些知識(shí)。
接下來(lái)是我們為什么做數(shù)學(xué)的第二個(gè)原因——使命。學(xué)而思于2003年成立時(shí)就是以數(shù)學(xué)起家。同時(shí),數(shù)學(xué)還是人類思維能力提升的最重要的手段之一,嚴(yán)謹(jǐn)?shù)倪壿嬎季S推導(dǎo)過程是需要訓(xùn)練的,沒有哪個(gè)孩子生下來(lái)就會(huì)。
第三點(diǎn)是方法。AlphaGeometry搞定了幾何證明難題,這進(jìn)一步印證我們選擇大模型解決數(shù)學(xué)的可行性。數(shù)學(xué)難點(diǎn)在于聯(lián)想能力,推導(dǎo)過程是其次的。生成式大模型最大的優(yōu)勢(shì)在于聯(lián)想,所以用大模型做數(shù)學(xué)從方法上來(lái)說是可行的。雖然一開始的起點(diǎn)低,但是增長(zhǎng)曲線有可能非常陡峭,可能比語(yǔ)言會(huì)更讓人類驚艷。
綜上,數(shù)學(xué)是攻克大模型技術(shù)的好場(chǎng)景。也是我們的立家之本,使命當(dāng)為。AlphaGeometry的成功更進(jìn)一步印證了大模型解決數(shù)學(xué)的潛力。
第二個(gè)問題,為什么要解決邏輯推理的思維能力和幻覺?因?yàn)闊o(wú)論是大模型還是人,整個(gè)學(xué)習(xí)過程都需要經(jīng)歷四個(gè)階段:記憶、聯(lián)想、推理和泛化。一個(gè)孩子最開始讓大家感覺到他比較機(jī)智是因?yàn)檫@個(gè)孩子的記憶力很好,慢慢就會(huì)發(fā)現(xiàn),這個(gè)孩子的聯(lián)想能力很好,他可以聯(lián)想到很多事,當(dāng)上學(xué)之后,下一步他需要解決推理的嚴(yán)謹(jǐn)。幻覺是聯(lián)想能力的副作用,沒有聯(lián)想就不會(huì)有幻覺。反過來(lái)說,只要聯(lián)想能力夠厲害,就一定會(huì)有幻覺。那么模型如何解決幻覺?
這就需要去檢驗(yàn)?zāi)P洼敵龅挠^點(diǎn),檢驗(yàn)分為兩點(diǎn):
第一,為觀點(diǎn)找到事實(shí)依據(jù)
第二,邏輯自洽。
小孩子在成長(zhǎng)過程中,也會(huì)經(jīng)歷一個(gè)“胡說八道”幻覺很重的階段,解決方法同樣是為自己的觀點(diǎn)找到依據(jù),同時(shí)讓自己的觀點(diǎn)邏輯自洽。為觀點(diǎn)找到依據(jù)就需要Verifier,邏輯自洽就需要邏輯推理能力。
最后一個(gè)階段是泛化??傮w來(lái)說大模型的泛化應(yīng)該要遠(yuǎn)遠(yuǎn)差于人類。以數(shù)學(xué)為例,即使一個(gè)孩子考到清華、北大,總共加起來(lái)最多做10萬(wàn)道題,但是即使到目前為止,大模型訓(xùn)練了100倍,訓(xùn)練過千萬(wàn)題,能力可能比人差得多。核心在于大模型的舉一反三能力弱很多。如果這個(gè)層面有所突破,那么強(qiáng)人工智能就會(huì)出現(xiàn)。
目前,大模型已經(jīng)解決了聯(lián)想能力,下一步是如何把推理解決好,完成前三步,這個(gè)過程需要時(shí)間。
為什么是大模型?
人工智能發(fā)展了很久,但直到大模型誕生之后,大家覺得大模型很厲害,究竟厲害在什么地方?
核心1:從整合性到任務(wù)Scaling Law的“涌現(xiàn)”
任務(wù)跟模型結(jié)構(gòu)解綁是多任務(wù)整合的基礎(chǔ)
單任務(wù)超越GPT4意義有限,大規(guī)模復(fù)雜任務(wù)的整合性才是大模型的真正價(jià)值所在
理想情況是多個(gè)任務(wù)具有協(xié)同與促進(jìn),下限是兩個(gè)任務(wù)不沖突
核心2:從指令跟隨準(zhǔn)確率到自然語(yǔ)言編程
高準(zhǔn)確率的指令跟隨是自然語(yǔ)言變成的必要條件
為什么是大模型和教育?
《喬布斯傳》中提到,喬布斯2011年跟比爾蓋茨會(huì)面討論教育和未來(lái)學(xué)校的問題時(shí),說了一個(gè)現(xiàn)象:“自21世紀(jì),人類在科技上的迅速發(fā)展,幾乎改變了所有的領(lǐng)域,為什么唯獨(dú)在學(xué)校教育上,影響小的令人吃驚?”
人類天生對(duì)兩個(gè)方面不可或缺,物質(zhì)方面是水和能量;另外是人類不能或缺信息。
但是教育在信息之上,我們希望教育具有獲取知識(shí)和獲取智慧的目的。
但21世紀(jì)絕大部分的發(fā)展過程都在解決信息化、數(shù)字化,基本上沒有涉及知識(shí)和智慧。大模型通過大規(guī)模的預(yù)訓(xùn)練,基本上是從知識(shí)切入的,所以有希望對(duì)教育做出改變。
論“通用模型”和“垂類模型”
目前在做模型的有兩撥團(tuán)隊(duì):做通用模型和做垂類模型的。通用和垂類的差別是什么?
通用模型的困境:如何評(píng)估模型的性能
無(wú)論術(shù)語(yǔ)上如何強(qiáng)調(diào)通用,模型總是需要構(gòu)建集合進(jìn)行評(píng)估,集合一定總體的有偏采樣
即使建立了一個(gè)無(wú)偏采樣集合,只要根據(jù)評(píng)測(cè)指導(dǎo)模型優(yōu)化,那你就在偏向你觀測(cè)的集合,潛臺(tái)詞是在犧牲你沒有觀察到。
垂類模型的困境:細(xì)分的邊界如何確定
教育是一個(gè)垂類,還是文科、理科是一個(gè)垂類,亦或者作文是一個(gè)垂類?
總結(jié)一下:
數(shù)學(xué)是大模型能力提升的一個(gè)好場(chǎng)景
聯(lián)想能力是目前生成AI的核心優(yōu)勢(shì),幻覺是優(yōu)勢(shì)的副作用
整合復(fù)雜任務(wù),Prompt Engineering實(shí)現(xiàn)自然語(yǔ)言編程是大模型的核心
大模型有可能在知識(shí)獲取完成供給側(cè)升級(jí),讓個(gè)性化教育成為可能
面向行業(yè)的垂類模型長(zhǎng)期都會(huì)很有價(jià)值
學(xué)而思自去年5月正式啟動(dòng)研發(fā)大模型,8月24日發(fā)布內(nèi)測(cè)版的MathGPT官網(wǎng),11月4日獲批大模型牌照,今年2月在MathEval榜單的數(shù)學(xué)能力評(píng)測(cè)中登頂。
為什么是學(xué)而思來(lái)做?
為什么是學(xué)而思來(lái)做?有人會(huì)問,數(shù)學(xué)是好場(chǎng)景,你們有志去做,這條曲線可能確實(shí)比較陡峭,但為什么不是別家?
學(xué)而思來(lái)做數(shù)學(xué)大模型的原因是,目前我們公司的技術(shù)研發(fā)和教研人員超3000人,研發(fā)經(jīng)費(fèi)也很高。只有資源的大規(guī)模投入,才能保證將來(lái)的產(chǎn)出。
做大模型如何才能實(shí)現(xiàn)個(gè)性化教育?我們通過大模型與檢索增強(qiáng)生成(RAG,Retrieval-augmented Generation)技術(shù),使所有知識(shí)內(nèi)容具有一致性。這個(gè)能力一邊指向知識(shí)庫(kù),解決幻覺問題;另一邊是用戶畫像庫(kù),解決個(gè)性化問題。
MathGPT的訓(xùn)練過程
MathGPT的訓(xùn)練過程包括預(yù)訓(xùn)練、有監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)三個(gè)階段,其中最要強(qiáng)調(diào)的是強(qiáng)化學(xué)習(xí)。為什么說數(shù)學(xué)的曲線會(huì)比較陡峭?因?yàn)榇蟛糠值臄?shù)學(xué)題都有答案,有答案就意味著我們能做大規(guī)模的仿真,能夠仿真是做好強(qiáng)化學(xué)習(xí)的核心要素。
大模型學(xué)習(xí)數(shù)學(xué)的方式和一個(gè)孩子很像,孩子需要看大量的數(shù)學(xué)書自學(xué);老師給孩子講解標(biāo)準(zhǔn)的解體套路;之后孩子做多輪練習(xí),老師批改反饋。對(duì)應(yīng)這三個(gè)階段,大模型先用海量的講義、題庫(kù)和教輔進(jìn)行預(yù)訓(xùn)練;再通過大量步驟清晰的解題數(shù)據(jù)做有監(jiān)督的微調(diào);最后用獎(jiǎng)勵(lì)模型給解題結(jié)果以反饋。
MathGPT訓(xùn)練中的困難
剛剛說了很多好處,但MathGPT在訓(xùn)練中也遇到了困難。目前,大模型掌握一條定律方式只有通過大量的例子讓它自己悟到。
以加法交換律a+b=b+a為例,我們告訴別人的時(shí)候,他可以聽懂這個(gè)定律,但告訴模型不行,需要舉1+2=2+1、3+5=5+3,甚至A+C=C+A等大規(guī)模的例子,大模型才能悟到這兩個(gè)數(shù)字可以互換。目前模型沒有辦法接受概念(定律)的直接輸入,只能通過一個(gè)個(gè)例子自己學(xué)會(huì),這是大模型目前存在的問題。
剛剛提到九章大模型登頂MathEval榜單(https://matheval.ai/),評(píng)估的這些能力中的集合都有參考依據(jù),整體評(píng)估下來(lái)我們目前排第一。
如何解決幻覺?
來(lái)看一道題目,王老師需要為40名學(xué)生購(gòu)買足球,每個(gè)足球的價(jià)格是48元,王老師還需要為這些足球支付一定的運(yùn)費(fèi),運(yùn)費(fèi)是每個(gè)足球價(jià)格的八分之一,王老師一共需要支付多少錢?
第一輪:式子列對(duì)了,48*40*1/8+48*40,但計(jì)算48*40算錯(cuò)了,算成2880了;第二輪:我們讓它在犯錯(cuò)的這一步重新嘗試,48*5+48*40=48*45,換了種方式,做對(duì)了,因?yàn)橄人?0*1/8更簡(jiǎn)單。
因此,如何讓大模型和人做的效果一樣呢?那就是讓大模型做很多遍,每做一遍都檢查步驟,如果做的答案都一樣,并且步驟也對(duì),我們就認(rèn)為它大概是對(duì)的,做了N多遍之后,幻覺問題得到大幅度解決。
目前,我們累計(jì)生產(chǎn)了600多萬(wàn)道題目,答案正確率可以達(dá)到96%,解析優(yōu)良率可以達(dá)到95%。試題生成成本降低為原來(lái)的十分之一。只有供給側(cè)效率提高,才能解決教育的個(gè)性化問題。
評(píng)估一個(gè)孩子難,評(píng)估一個(gè)模型同樣難,學(xué)而思將K12全科的評(píng)估集合公開給業(yè)內(nèi),期待共同推動(dòng)教育大模型的進(jìn)步。同時(shí),我們也發(fā)表了大模型數(shù)學(xué)論文,希望促進(jìn)教育技術(shù)進(jìn)步。
掃碼體驗(yàn)學(xué)而思九章大模型
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫信息告訴我們。