4月27-28日,芥末堆在北京舉辦以“中行獨復,教育重構(gòu)科技”為主題的GET2024春季教育科技大會。在4月27日下午的主論壇中,學而思技術(shù)總監(jiān)、MathGPT負責人白錦峰以《基于Verifier的九章大模型(MathGPT)業(yè)務落地應用》為題進行了內(nèi)容分享。
白錦峰首先分享了學而思為什么從數(shù)學切入做大模型,其中一個主要原因是數(shù)學是攻克大語言模型技術(shù)難點的天然好場景。此外,白錦峰還分析了通用模型與垂類模型各自的困境、MathGPT的訓練過程,以及MathGPT訓練中遇到的困難。
白錦峰表示,“學而思將K12全科的評估集合公開給業(yè)內(nèi),期待共同推動教育大模型的進步。同時,我們也發(fā)表了大模型數(shù)學論文,希望促進教育技術(shù)進步?!?/p>
以下為演講實錄,經(jīng)編輯:
我今天分享的題目是《基于Verifier的九章大模型(MathGPT)業(yè)務落地應用》。“Verifier”直譯過來是“驗證器”。我們都知道大模型有幻覺,當大模型應用于教育的時候,幻覺問題是一個核心卡點,因此我們需要通過一種方法解決它,而引入Verifier是可行方式之一。
眾所周知,國內(nèi)外做大模型的機構(gòu)非常多,如果大家留心去看各家大模型的切入點,絕大部分都是從語言、對話切入,這是為什么呢?因為ChatGPT在語言方面表現(xiàn)出驚人的天賦,所以大家群起追隨,但我們另辟蹊徑,從數(shù)學切入。我們的大模型的中文名字是“九章大模型”,與《九章算術(shù)》里的“九章”一樣,英文是“MathGPT”。
為什么是Math?
我們?nèi)ツ曜鯩athGPT的時候,很多大模型領(lǐng)域的專家、學者以及領(lǐng)導過來,他們問的第一個問題是“為什么你們要做數(shù)學?”“大模型做數(shù)學這條路可行嗎?”今天在這里回答一下我們?yōu)槭裁匆鰯?shù)學這個問題。
首先,做數(shù)學的出發(fā)點是利他。數(shù)學是大語言模型最弱的地方,有時候連簡單的加減乘除都算不對,但孩子學數(shù)學非常重要,大模型也需要教,于是我們選擇數(shù)學作為切入口。
而且,數(shù)學是攻克大語言模型天然好場景。ChatGPT火之前有一篇論文是這么說的,我們已經(jīng)觀察到大模型具有所謂的涌現(xiàn)能力,什么是“涌現(xiàn)”?當模型在做一個數(shù)學問題,以及8位數(shù)的加法,參數(shù)從百億(10B)到千億(100B)以上的大規(guī)模之后,這個能力突然開始出現(xiàn),這就是“涌現(xiàn)”。
大模型里為什么會提到“涌現(xiàn)”?大模型任務已經(jīng)非常復雜,復雜到了很多時候并不能以傳統(tǒng)的分析學或分析解構(gòu)的視角去思考,于是就有了“涌現(xiàn)”。
涌現(xiàn)這個詞來自復雜科學,技術(shù)領(lǐng)域很少見,生命就是典型的復雜科學。 研究復雜科學的規(guī)律,實驗素材的選擇至關(guān)重要。孟德爾之所以能夠發(fā)現(xiàn)遺傳三定律,至關(guān)重要的原因是選擇了豌豆,豌豆“閉花傳粉,自花授粉”在有性生殖的物種中是一個特殊的存在。遺傳底層的真相是父母基因的組合違反絕大部分人對遺傳的直覺,也就是遺傳底層是“量子化”的,而不是連續(xù)的。
回過頭來說,數(shù)學是不是我們解決大模型里面的豌豆,是不是那個好場景?
大家都知道ChatGPT是通過預測下一個詞來決定它如何學習。大模型現(xiàn)在唯一Work的第一性原理是:通過預測下一個詞去Scale,站在語言模型的視角是合理的。那么,從數(shù)學的視角還合理嗎?
舉個例子,我們都知道高考會考填空題。如果做高考的填空題也是通過預測下一個詞的方式,這顯然有問題。為什么?因為即使考上清華、北大,或哈佛、耶魯?shù)膶W生,也沒有可能看完一個題目之后,就填出答案,即使聰明的人類,也一定需要詳細的思考步驟,才能解決問題。不是說前后詞之間沒有關(guān)系,而是不能直接預測出來。
還有大語言模型主要靠抓取互聯(lián)網(wǎng)上的語料來預訓練得到的,訓練之后再做微調(diào)。這個過程乍一看挺對的,但仔細一想其實有問題。因為它假設了我們?nèi)康闹R都是線上化的。雖然互聯(lián)網(wǎng)已經(jīng)發(fā)展了20年,但還有很多知識沒有完成線上化,一旦沒有完成這個過程,大模型是不可能學會的。
仍然以數(shù)學為例。沒有完成線上化過程的原因,有的是太難,有的是太容易。比如孩子會做很多的加減乘除算術(shù)題,但在網(wǎng)上很少看到這些題目,因為這樣的過程在搜索、檢索或信息獲取的過程中不提供信息價值,但大模型需要這樣的知識,孩子的練習也需要這樣的知識。因此我們需要補上這些知識。
接下來是我們為什么做數(shù)學的第二個原因——使命。學而思于2003年成立時就是以數(shù)學起家。同時,數(shù)學還是人類思維能力提升的最重要的手段之一,嚴謹?shù)倪壿嬎季S推導過程是需要訓練的,沒有哪個孩子生下來就會。
第三點是方法。AlphaGeometry搞定了幾何證明難題,這進一步印證我們選擇大模型解決數(shù)學的可行性。數(shù)學難點在于聯(lián)想能力,推導過程是其次的。生成式大模型最大的優(yōu)勢在于聯(lián)想,所以用大模型做數(shù)學從方法上來說是可行的。雖然一開始的起點低,但是增長曲線有可能非常陡峭,可能比語言會更讓人類驚艷。
綜上,數(shù)學是攻克大模型技術(shù)的好場景。也是我們的立家之本,使命當為。AlphaGeometry的成功更進一步印證了大模型解決數(shù)學的潛力。
第二個問題,為什么要解決邏輯推理的思維能力和幻覺?因為無論是大模型還是人,整個學習過程都需要經(jīng)歷四個階段:記憶、聯(lián)想、推理和泛化。一個孩子最開始讓大家感覺到他比較機智是因為這個孩子的記憶力很好,慢慢就會發(fā)現(xiàn),這個孩子的聯(lián)想能力很好,他可以聯(lián)想到很多事,當上學之后,下一步他需要解決推理的嚴謹?;糜X是聯(lián)想能力的副作用,沒有聯(lián)想就不會有幻覺。反過來說,只要聯(lián)想能力夠厲害,就一定會有幻覺。那么模型如何解決幻覺?
這就需要去檢驗模型輸出的觀點,檢驗分為兩點:
第一,為觀點找到事實依據(jù)
第二,邏輯自洽。
小孩子在成長過程中,也會經(jīng)歷一個“胡說八道”幻覺很重的階段,解決方法同樣是為自己的觀點找到依據(jù),同時讓自己的觀點邏輯自洽。為觀點找到依據(jù)就需要Verifier,邏輯自洽就需要邏輯推理能力。
最后一個階段是泛化??傮w來說大模型的泛化應該要遠遠差于人類。以數(shù)學為例,即使一個孩子考到清華、北大,總共加起來最多做10萬道題,但是即使到目前為止,大模型訓練了100倍,訓練過千萬題,能力可能比人差得多。核心在于大模型的舉一反三能力弱很多。如果這個層面有所突破,那么強人工智能就會出現(xiàn)。
目前,大模型已經(jīng)解決了聯(lián)想能力,下一步是如何把推理解決好,完成前三步,這個過程需要時間。
為什么是大模型?
人工智能發(fā)展了很久,但直到大模型誕生之后,大家覺得大模型很厲害,究竟厲害在什么地方?
核心1:從整合性到任務Scaling Law的“涌現(xiàn)”
任務跟模型結(jié)構(gòu)解綁是多任務整合的基礎
單任務超越GPT4意義有限,大規(guī)模復雜任務的整合性才是大模型的真正價值所在
理想情況是多個任務具有協(xié)同與促進,下限是兩個任務不沖突
核心2:從指令跟隨準確率到自然語言編程
高準確率的指令跟隨是自然語言變成的必要條件
為什么是大模型和教育?
《喬布斯傳》中提到,喬布斯2011年跟比爾蓋茨會面討論教育和未來學校的問題時,說了一個現(xiàn)象:“自21世紀,人類在科技上的迅速發(fā)展,幾乎改變了所有的領(lǐng)域,為什么唯獨在學校教育上,影響小的令人吃驚?”
人類天生對兩個方面不可或缺,物質(zhì)方面是水和能量;另外是人類不能或缺信息。
但是教育在信息之上,我們希望教育具有獲取知識和獲取智慧的目的。
但21世紀絕大部分的發(fā)展過程都在解決信息化、數(shù)字化,基本上沒有涉及知識和智慧。大模型通過大規(guī)模的預訓練,基本上是從知識切入的,所以有希望對教育做出改變。
論“通用模型”和“垂類模型”
目前在做模型的有兩撥團隊:做通用模型和做垂類模型的。通用和垂類的差別是什么?
通用模型的困境:如何評估模型的性能
無論術(shù)語上如何強調(diào)通用,模型總是需要構(gòu)建集合進行評估,集合一定總體的有偏采樣
即使建立了一個無偏采樣集合,只要根據(jù)評測指導模型優(yōu)化,那你就在偏向你觀測的集合,潛臺詞是在犧牲你沒有觀察到。
垂類模型的困境:細分的邊界如何確定
教育是一個垂類,還是文科、理科是一個垂類,亦或者作文是一個垂類?
總結(jié)一下:
數(shù)學是大模型能力提升的一個好場景
聯(lián)想能力是目前生成AI的核心優(yōu)勢,幻覺是優(yōu)勢的副作用
整合復雜任務,Prompt Engineering實現(xiàn)自然語言編程是大模型的核心
大模型有可能在知識獲取完成供給側(cè)升級,讓個性化教育成為可能
面向行業(yè)的垂類模型長期都會很有價值
學而思自去年5月正式啟動研發(fā)大模型,8月24日發(fā)布內(nèi)測版的MathGPT官網(wǎng),11月4日獲批大模型牌照,今年2月在MathEval榜單的數(shù)學能力評測中登頂。
為什么是學而思來做?
為什么是學而思來做?有人會問,數(shù)學是好場景,你們有志去做,這條曲線可能確實比較陡峭,但為什么不是別家?
學而思來做數(shù)學大模型的原因是,目前我們公司的技術(shù)研發(fā)和教研人員超3000人,研發(fā)經(jīng)費也很高。只有資源的大規(guī)模投入,才能保證將來的產(chǎn)出。
做大模型如何才能實現(xiàn)個性化教育?我們通過大模型與檢索增強生成(RAG,Retrieval-augmented Generation)技術(shù),使所有知識內(nèi)容具有一致性。這個能力一邊指向知識庫,解決幻覺問題;另一邊是用戶畫像庫,解決個性化問題。
MathGPT的訓練過程
MathGPT的訓練過程包括預訓練、有監(jiān)督微調(diào)、強化學習三個階段,其中最要強調(diào)的是強化學習。為什么說數(shù)學的曲線會比較陡峭?因為大部分的數(shù)學題都有答案,有答案就意味著我們能做大規(guī)模的仿真,能夠仿真是做好強化學習的核心要素。
大模型學習數(shù)學的方式和一個孩子很像,孩子需要看大量的數(shù)學書自學;老師給孩子講解標準的解體套路;之后孩子做多輪練習,老師批改反饋。對應這三個階段,大模型先用海量的講義、題庫和教輔進行預訓練;再通過大量步驟清晰的解題數(shù)據(jù)做有監(jiān)督的微調(diào);最后用獎勵模型給解題結(jié)果以反饋。
MathGPT訓練中的困難
剛剛說了很多好處,但MathGPT在訓練中也遇到了困難。目前,大模型掌握一條定律方式只有通過大量的例子讓它自己悟到。
以加法交換律a+b=b+a為例,我們告訴別人的時候,他可以聽懂這個定律,但告訴模型不行,需要舉1+2=2+1、3+5=5+3,甚至A+C=C+A等大規(guī)模的例子,大模型才能悟到這兩個數(shù)字可以互換。目前模型沒有辦法接受概念(定律)的直接輸入,只能通過一個個例子自己學會,這是大模型目前存在的問題。
剛剛提到九章大模型登頂MathEval榜單(https://matheval.ai/),評估的這些能力中的集合都有參考依據(jù),整體評估下來我們目前排第一。
如何解決幻覺?
來看一道題目,王老師需要為40名學生購買足球,每個足球的價格是48元,王老師還需要為這些足球支付一定的運費,運費是每個足球價格的八分之一,王老師一共需要支付多少錢?
第一輪:式子列對了,48*40*1/8+48*40,但計算48*40算錯了,算成2880了;第二輪:我們讓它在犯錯的這一步重新嘗試,48*5+48*40=48*45,換了種方式,做對了,因為先算40*1/8更簡單。
因此,如何讓大模型和人做的效果一樣呢?那就是讓大模型做很多遍,每做一遍都檢查步驟,如果做的答案都一樣,并且步驟也對,我們就認為它大概是對的,做了N多遍之后,幻覺問題得到大幅度解決。
目前,我們累計生產(chǎn)了600多萬道題目,答案正確率可以達到96%,解析優(yōu)良率可以達到95%。試題生成成本降低為原來的十分之一。只有供給側(cè)效率提高,才能解決教育的個性化問題。
評估一個孩子難,評估一個模型同樣難,學而思將K12全科的評估集合公開給業(yè)內(nèi),期待共同推動教育大模型的進步。同時,我們也發(fā)表了大模型數(shù)學論文,希望促進教育技術(shù)進步。
掃碼體驗學而思九章大模型
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。