在《像淘寶店一樣做個性化學(xué)習(xí)推薦——論萊布尼茨系統(tǒng)的誕生》[1]一文中,我們介紹了基于知識圖譜的個性化學(xué)習(xí)推薦系統(tǒng)的基本原理。那篇文章解釋了做一個合格推薦系統(tǒng)所需的人力成本和時間成本。如果一個教育公司不關(guān)心遺產(chǎn)而關(guān)心資產(chǎn)的話,它很難打造出在國際上有競爭力的自適應(yīng)學(xué)習(xí)系統(tǒng)的[2]。
這篇的觀點更為激進。即使我們能做出一個完美的基于知識圖譜的自適應(yīng)推薦系統(tǒng),也無法革命性地改進K-12教育的生產(chǎn)力(特別是在公立學(xué)校系統(tǒng)中)。請注意我并沒有為這個判斷加上“中國”這個限定詞;事實上,在美國K-12場景中,沒有任何一款以知識圖譜為基礎(chǔ)的自適應(yīng)學(xué)習(xí)系統(tǒng)在大規(guī)??煽貙嶒炛凶C明了教學(xué)效果的優(yōu)越性。[3][4]
為什么自適應(yīng)學(xué)習(xí)系統(tǒng)看上去這么美,現(xiàn)實卻這么殘酷?
我認(rèn)為有兩大原因:
第一,K-12對于個人學(xué)習(xí)速度差異的容忍度太差(教學(xué)進度被大綱高度約束);
第二,我們對于學(xué)習(xí)過程本身的理解太淺了,止于測評,而不及教學(xué)。因此,在不比寬度只比深度的K-12領(lǐng)域,自適應(yīng)學(xué)習(xí)系統(tǒng)沒有優(yōu)勢。這并不是說它一無是處,而是說需要找到它自己的產(chǎn)品市場契合(product market fit)。在學(xué)生學(xué)習(xí)自愿,學(xué)習(xí)深度較淺,學(xué)習(xí)速度是客戶剛需的學(xué)習(xí)任務(wù)中,自適應(yīng)學(xué)習(xí)系統(tǒng)會有其用武之地。
基于知識圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)究竟有啥用?
假設(shè)有人把《五年高考三年模擬》這套書變成一個基于知識圖譜的自適應(yīng)推薦系統(tǒng),它和紙質(zhì)原版的優(yōu)勢在哪里?
(1)減少刷題數(shù)量
有兩類題不用刷了:已經(jīng)掌握的(比如答對概率>95%)[5],根本沒有掌握的(比如答對概率<30%)。雖然不同人可以跳過的題是不相同的,但是我保守估計在相同效果下,每人的刷題數(shù)量可以降低30%以上。
(2)明確刷題優(yōu)先級
第一,前置知識點不掌握的優(yōu)先刷;第二,過難的題目排后刷。
(3)知識點的掌握程度的定量測評
作為自適應(yīng)學(xué)習(xí)系統(tǒng)的副產(chǎn)品,用戶可以看到自己在各個知識點的掌握程度的估計。從提分的角度,我愿意大膽猜測這些改進并沒有什么用處:
降低刷題量沒有意義
對于大部分高三學(xué)生而言,少刷題省下來的時間干什么?答案是繼續(xù)刷題。只要邊際回報率為正,即使是0+(向右趨近于0),學(xué)生也會刷題。在現(xiàn)行考評制度下,自學(xué)大學(xué)內(nèi)容的回報率可能還是負的[6]。
沒有額外教學(xué)環(huán)節(jié),刷題的提分效果有天花板
對于非天才而言,如果刷題有用,還要老師干嘛?因此,單純的練習(xí)(即使是帶文字講解的練習(xí))是有提分上限的;更高效的練習(xí)只是更早地碰到這個提分天花板而已。如果時間不夠,可能有人達不到這個天花板;但是對于大部分人而言,時間是充裕的。推薦非練習(xí)類學(xué)習(xí)內(nèi)容?非常遺憾,這不是基于知識圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)能夠做的[7]。
成績提不上去的原因主要是不學(xué),而不是學(xué)了不會
大部分買了《五年三年》的學(xué)生并沒有啃完這個大部頭,因為他們?nèi)狈ν瓿蛇@項艱巨任務(wù)所必須的動機和毅力。盡管有證據(jù)顯示降低難度從而給與學(xué)渣更多的成就感可以增強他們的投入程度[8],但是從邏輯上講自適應(yīng)學(xué)習(xí)系統(tǒng)本身并不解決動機問題。
雖然改造《五年三年》是一個極端的例子,但是它是自適應(yīng)學(xué)習(xí)系統(tǒng)在K-12應(yīng)用困境的一個縮影。具體而言:
(1)因為不鼓勵學(xué)習(xí)速度的差異化,所以提高速度沒有意義
每個學(xué)段都有按部就班的教學(xué)大綱,老師的考核以完成這個教學(xué)任務(wù)為準(zhǔn),而不是以最大化學(xué)生學(xué)習(xí)內(nèi)容為準(zhǔn)[9]。此外,因為公平的考量和師資能力的限制,也不鼓勵學(xué)生根據(jù)自己的節(jié)奏學(xué)習(xí),學(xué)得快孩子還是得在終點線上等大部隊過來匯合[10]。
(2)對于教學(xué)指導(dǎo)而言,自適應(yīng)教學(xué)系統(tǒng)的分析粒度太粗
老師并不怎么關(guān)心粗粒度知識點的掌握狀況(比如一元二次方程的求根公式),而比較關(guān)心學(xué)生對于知識點細節(jié)的掌握(比如求根公式的b前面是不是忘記添加負號)。分析引擎不能提供細粒度的教學(xué)數(shù)據(jù)支持,就無法切入教學(xué)環(huán)節(jié),提高教學(xué)質(zhì)量[11]。而之所以不能把老師批卷子的過程自動化[12],事實上體現(xiàn)了算法對于學(xué)習(xí)行為的理解還是太少。
(3)不能解決學(xué)習(xí)興趣問題
學(xué)習(xí)是承認(rèn)自己的無知,并拿出撞了南墻也不回頭的倔勁與自己的無知做斗爭的過程。除非對于所學(xué)內(nèi)容非常感興趣或者有超乎常人的意志力,否則學(xué)習(xí)就是一件反人性的事情。一個學(xué)生同時喜歡語數(shù)外+文綜三科或者理綜三科的概率小到可以忽略不計;因此總有一科(或者幾科)對于學(xué)生而言是打心底里討厭,再怎么自適應(yīng)也是討厭。
超越基于知識圖譜的自適應(yīng)學(xué)習(xí)系統(tǒng)
籠統(tǒng)的說,學(xué)習(xí)數(shù)據(jù)分析要解決的大問題是以下三個:
(1)學(xué)生現(xiàn)在學(xué)成什么樣了?
(2)學(xué)生是怎么學(xué)的?
(3)老師是怎么教的?
任何一個學(xué)習(xí)淘寶/amazon/Netflix/今日頭條的推薦系統(tǒng),它都在第一個問題上做功夫;因為它必須做兩個核心假設(shè):
(1)隱藏的偏好是穩(wěn)定的;
(2)系統(tǒng)的任務(wù)是識別并利用偏好,而不是改變偏好。
然而不幸的是,學(xué)習(xí)這件事違反了這兩個核心假設(shè)。知識點的掌握程度是可變的,因而不是穩(wěn)定的;學(xué)習(xí)系統(tǒng)的目的不僅在于識別知識點掌握程度的強弱,更在于讓學(xué)生習(xí)得其薄弱的知識點。如果說第一個假設(shè)還是個技術(shù)問題,那么第二個假設(shè)就是方向問題了。讓我繼續(xù)用淘寶推薦的例子來解釋目前主流的推薦系統(tǒng)和學(xué)習(xí)推薦的核心差別。
假設(shè)明天教育部宣布,所有人都必須喜歡闊腿褲,而不能喜歡連衣裙。那么淘寶面臨的問題是,怎么樣引導(dǎo)用戶通過一系列搜索行為,讓歡樂頌同款連衣裙的粉絲最后買了闊腿褲。我相信有過協(xié)同推薦算法經(jīng)驗的同志看到這個問題肯定是一臉蒙圈了,但是這就是學(xué)習(xí)推薦系統(tǒng)要解決的問題。
教育部說所有人都要掌握力的平衡,但是現(xiàn)在用戶就是對找力無感,怎么樣通過一系列題目的練習(xí)使得用戶變成力平衡小達人?這個問題事實上涉及到我們對于學(xué)習(xí)過程的理解,而大多數(shù)情況下學(xué)習(xí)過程對于我們而言是一個黑盒。我也沒有看到哪家自適應(yīng)學(xué)習(xí)系統(tǒng)真正系統(tǒng)性地思考這個問題。即使是行業(yè)標(biāo)桿,在推薦時,主要以提高測評精度為主,而不是以提高教學(xué)效果為主。如果測評內(nèi)容和學(xué)習(xí)內(nèi)容的相關(guān)性不高,那么基于測評設(shè)計的自學(xué)推薦系統(tǒng)不能真正提分也不讓人驚奇。
從美國經(jīng)驗來看,真正有效的學(xué)習(xí)推薦系統(tǒng)是從后兩個問題入手的。這里介紹一個從第三個問題入手的翹楚,Reasoning Mind[13]。Reasoning Mind將俄羅斯小學(xué)數(shù)學(xué)的紙質(zhì)教案變成類似于人機對話的人工智能輔導(dǎo),不僅大大提高了學(xué)生的課堂投入時間(根據(jù)一項測評指標(biāo)投入度從60%提升到90%),而且多次在大范圍的隨機試驗中獲得統(tǒng)計上顯著[14]的提分效果。而頗讓我震驚的是,Reasoning Mind事實上沒有任何比算平均分更復(fù)雜的測評技術(shù)。
整篇文章有些悲觀,因此末了來點雞湯提提神:
路漫漫其修遠兮,吾將上下而求索。
注釋:
[1]芥末堆有一系列文章介紹knewton系統(tǒng)(1/ 推薦原理+知識圖譜+連續(xù)適應(yīng)性+大數(shù)據(jù);2/ 從教學(xué)生應(yīng)試到適應(yīng)性學(xué)習(xí)平臺,Knewton的轉(zhuǎn)型之路;3/ 作為自適應(yīng)學(xué)習(xí)平臺Knewton的系統(tǒng)是怎么運作的)
[2]大部分在業(yè)界受尊重的自適應(yīng)學(xué)習(xí)系統(tǒng)是非盈利的,例如ASSISTment,Reasoning Mind,Khan Academy;唯一例外的ALEKS,其創(chuàng)始人在60+的高齡開始創(chuàng)業(yè),也基本不是為了錢。Knewton已經(jīng)是一家值得尊敬的技術(shù)公司,但是還沒有成為一家受人尊敬的教育公司。
[3] Khan Academy在Gates Foundation資助的評估研究中乏善可陳。在美國教育評估的圣地WhatWorks Clearing House收錄的教育技術(shù)效果測評中,基本看不到自適應(yīng)學(xué)習(xí)系統(tǒng)的身影。各大服務(wù)提供商自己提供的效果評估一般會強調(diào)“效果和使用強度成正比”。
[4] Reasoning Mind可能是唯一數(shù)次通過大規(guī)模效果評價試驗的,但是遺憾的是他們的自適應(yīng)學(xué)習(xí)系統(tǒng)并不基于知識圖譜。
[5]這里不考慮為了保持熟練度而進行的重復(fù)練習(xí)。為了保證在考場上類似于神經(jīng)反射的答題速度,重復(fù)做已經(jīng)掌握的題也有一定意義。
[6]特別是文科。
[7]因為沒有顯性的可觀察變量,因此無法將潛在的知識點掌握程度外化出來,所以也無法進入推薦系統(tǒng);除非施加額外的推薦規(guī)則。
[8]匯報這種情況的自適應(yīng)學(xué)習(xí)系統(tǒng)包括中國的學(xué)吧課堂和印度的embibe。這里的一個推論是老師的教學(xué)水平低于題目的文字解答。這種情況在自適應(yīng)學(xué)習(xí)系統(tǒng)用戶中的比率有多大是值得思考的。
[9]一個典型的反例是蒙特梭利式的教學(xué)組織方式,不用年齡而用學(xué)習(xí)能力來組織教學(xué)活動
[10]典型的反例是美國的AP課程。我曾見到深圳某知名中學(xué)國際班的學(xué)生在高二就開始學(xué)AP Calculus,這樣的速度差距在中國大部分學(xué)校是不可想象的。
[11]云校在這個方面做了許多工作。期待他們開花結(jié)果,并且逼迫更多的教育公司模仿他們的做法。
[12]有種觀點認(rèn)為,批卷子這種看似低效的信息提取方式幫助了老師更好地理解了學(xué)生情況的詳細情況,這種內(nèi)化工程根本不應(yīng)該由算法來替代;否則會降低老師據(jù)此進行“個性化”教學(xué)的能力。
[13] https://www.reasoningmind.org/
[14]一般在0.5個標(biāo)準(zhǔn)差左右,有一個實驗獲得了1個標(biāo)準(zhǔn)差以上。
本文轉(zhuǎn)載自愛行知(微信公眾號:k12edu-tech),作者馮俊晨。
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。