芥末堆芥末堆

題庫產(chǎn)品:粗粒度的個性化是偽個性化

作者:李行武 發(fā)布時間:

題庫產(chǎn)品:粗粒度的個性化是偽個性化

作者:李行武 發(fā)布時間:

摘要:題庫能實現(xiàn)個性化嗎?

【芥末堆注】本篇為門外漢看在線教育系列專題之二,戳鏈接查看一:

門外漢看在線教育之一:所有K12產(chǎn)品的核心價值都是提分

上節(jié)說到題庫有兩類,一是以學(xué)霸君為代表的拍題產(chǎn)品,一是以猿題庫為代表的組題產(chǎn)品。組題產(chǎn)品給我的感覺是在做一個“活”的練習(xí)冊,“可以根據(jù)你對考點的掌握情況智能出題”。因為我自己過去也搞過一點點大數(shù)據(jù),然后我自己用了用這個產(chǎn)品,覺得這個事情不太對。主要的問題有兩個,第一個是“先有雞還是先有蛋”。你要有大量的數(shù)據(jù)才可能訓(xùn)練出精準(zhǔn)的推送模型,可是你要足夠“智能”才可能有大量的學(xué)生使用你的產(chǎn)品。冷啟動問題怎么破?

在回答問題前我吐個槽。去年6月份的時候我參加了一個小沙龍,聽猿題庫的朋友說用戶量已經(jīng)接近300萬了,每天最活躍的時候是晚上十點多。我特別想吐槽的是,這個app有個選項默認(rèn)是打開的,叫做“每日答題提醒”(最新版本在“發(fā)現(xiàn)”里面)。它的作用是每天晚上十點半準(zhǔn)時打開app并用最大音量提醒你來做題吧,不管你當(dāng)時在什么別的app里面或者哪怕你手機調(diào)的是靜音……囧rz。到了7月份我聽說猿題庫拿了1500萬刀的C輪,10月份的時候我看到新聞?wù)f用戶數(shù)突破500萬,每周新增30萬。于是我明白了,冷啟動怎么破?有錢??!嗯,有錢真的可以的,數(shù)據(jù)量這一局暫時你贏了。然后就是第二個問題了,數(shù)據(jù)質(zhì)量,給大家看兩張截圖。

注意圖中的“考點”和“標(biāo)簽”,機器是不認(rèn)識“題目”的,機器學(xué)習(xí)的數(shù)據(jù)就是這些人工打上的“標(biāo)簽”?,F(xiàn)在的題庫動輒號稱千萬題量,其實哪怕是百萬,生產(chǎn)一個上圖這樣標(biāo)準(zhǔn)化的題庫的唯一辦法就是雇傭大量的廉價勞動力,比如大學(xué)生兼職團隊。在這種情況下,你打出來的標(biāo)只能是“粗粒度”的。“粗粒度”怎么理解?大家都學(xué)過中學(xué)數(shù)學(xué)的,我們嘗試估計一下這種標(biāo)簽的種類數(shù)量。整個高中數(shù)學(xué)約30個單元,如數(shù)列、立體幾何、函數(shù)、不等式等。按照“等差數(shù)列、等比數(shù)列”、“定義法”、“空間幾何體”、“圖解法”這樣的用詞,每個單元平均十幾個標(biāo)簽吧,總數(shù)我猜在300個左右。好,我們來感受一下這樣一個場景,智能題庫給你推送了5道題,都帶有“直線方程”這個標(biāo)簽,結(jié)果你全做錯了。這時不管背后的機器怎么學(xué)習(xí),它一定要再給你推一道帶“直線方程”標(biāo)簽的題吧。這有用嗎?你剛才犯的錯誤是“用點斜式設(shè)直線方程時忘記考慮斜率K不存在的情況”,或者是忘記了“與直線Ax+By+C=0垂直的直線是Bx-Ay+C1=0 (C1≠C)”,再或者是在“用方法四求直線關(guān)于某定點對稱的直線”時用錯了“中點坐標(biāo)公式”,blablabla……然后這次給你推的題是“求兩條直線的交點坐標(biāo)”。嗯,它們都是“直線方程”。

感謝數(shù)學(xué)不好的小伙伴堅持看完上面這一段,我想表達的觀點是——粗粒度的個性化是偽個性化。用俄羅斯方塊做個比喻,如圖,下面那些坑就是學(xué)生的薄弱點或者叫做用戶的需求,五花八門?,F(xiàn)在你要消掉它,如果落下來的全是4x4甚至6x6的方塊,那你永遠也別想成功。

回到上面題庫的第二個問題就是,任何數(shù)據(jù)所訓(xùn)練出來的模型的顆粒度不可能超過數(shù)據(jù)本身的顆粒度。所以,在數(shù)據(jù)質(zhì)量(顆粒度)達到某個閾值之前,再多的數(shù)據(jù)可能都是“廢的”,數(shù)據(jù)的質(zhì)量決定了個性化的有效性。

實際上,數(shù)據(jù)顆粒度這件事還間接影響了前一篇中我們提到的“學(xué)習(xí)主動性”問題。這里先賣個關(guān)子,回頭一并在學(xué)習(xí)主動性一節(jié)闡述。

市面上估計有十幾款題庫,有興趣的朋友可以都裝來看看,show出來的知識點基本都是上面截圖那種粒度的。然后就有個朋友跟我說“真像你說的那么多問題,人還拿了那么多錢呢”。對這個問題,我想起前幾個月有篇文章,講的是對比IDG和紅杉的投資,標(biāo)題是“賭選手還是賭賽道”之類的。這兩年在這個領(lǐng)域創(chuàng)業(yè)有兩個感覺,一是好像全行業(yè)都覺得所謂風(fēng)來了,他媽的再有個三五年,在線教育絕對是和電商之于傳統(tǒng)零售一樣,對傳統(tǒng)教育必須是顛覆??;二是至今都沒有一個能夠得到較廣泛認(rèn)可的模式或產(chǎn)品,尤其是K12。所以,第一點決定了資本必須布局,得投啊,晚了沒坑了啊。第二點是都不靠譜那投誰呢?其中一個答案就是“賭賽道”,越有錢越這么干。起碼最好的賽道要有我的份,然后每個賽道里面盡量挑最好的選手唄。猿題庫當(dāng)年也是做平臺(粉筆網(wǎng))的呢。2013年,多少平臺拿錢了呀,到2013年下半年就開始死了,粉筆網(wǎng)團隊很棒啊,能夠快速轉(zhuǎn)型到第二波最靠譜的模式——題庫。然后各種題庫紛紛冒出來了,到現(xiàn)在題庫也開始泛濫了,那第三波最靠譜的在哪里?不知道,希望是我們哈。

其實組題類題庫還有一種,就是面向老師的,猿題庫是面向?qū)W生的。我個人其實比較喜歡面向老師的組題類產(chǎn)品??赡苁且驗樽约鹤隽硕螘r間老師,覺得自動組卷這玩意真是有用啊。去年我們經(jīng)常用梯子網(wǎng)查題,可惜它倒了。現(xiàn)在也有一些面向老師的組題產(chǎn)品,不過比較少。想來想去,面向老師的組題產(chǎn)品不能成為主流的原因可能是兩個,一是盤子小,二是商業(yè)模式不成立。面向?qū)W生的組題產(chǎn)品的商業(yè)模式,我理解核心是導(dǎo)流玩轉(zhuǎn)化率,通過對接其他環(huán)節(jié)完成整個閉環(huán)。用一個朋友的話講是,“給人特別互聯(lián)網(wǎng)的感覺”。對比起來,面向老師的就差的比較多了。這一塊因為想的不多,就先不展開扯淡了。

今天拍了很多猿題庫,猿題庫的朋友不要打我哈。猿題庫是題庫里做的最棒的,我們也偷著學(xué)了點東西。比如公式的處理,latex串用的很棒,在存儲、傳輸和顯示等方面都有極大優(yōu)勢,還有很強的擴展性,比起現(xiàn)在很多用圖片的那是高大上太多了。

OK,寫到這里,平臺和題庫都講的差不多了,下一節(jié)打算沿著前面的顆粒度一事往下,談點交互,談點我們對教育行業(yè)核心問題的看法,感謝各位捧場。

文章來自學(xué)吧課堂李行武,僅代表作者個人觀點。

1、本文是 芥末堆網(wǎng)原創(chuàng)文章,轉(zhuǎn)載可點擊 芥末堆內(nèi)容合作 了解詳情,未經(jīng)授權(quán)拒絕一切形式轉(zhuǎn)載,違者必究;
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 芥末堆
芥末堆商務(wù)合作:王老師 18710003484
  • 題庫產(chǎn)品:粗粒度的個性化是偽個性化分享二維碼