在《像淘寶店一樣做個性化學習推薦——論萊布尼茨系統(tǒng)的誕生》[1]一文中,我們介紹了基于知識圖譜的個性化學習推薦系統(tǒng)的基本原理。那篇文章解釋了做一個合格推薦系統(tǒng)所需的人力成本和時間成本。如果一個教育公司不關心遺產而關心資產的話,它很難打造出在國際上有競爭力的自適應學習系統(tǒng)的[2]。
這篇的觀點更為激進。即使我們能做出一個完美的基于知識圖譜的自適應推薦系統(tǒng),也無法革命性地改進K-12教育的生產力(特別是在公立學校系統(tǒng)中)。請注意我并沒有為這個判斷加上“中國”這個限定詞;事實上,在美國K-12場景中,沒有任何一款以知識圖譜為基礎的自適應學習系統(tǒng)在大規(guī)模可控實驗中證明了教學效果的優(yōu)越性。[3][4]
為什么自適應學習系統(tǒng)看上去這么美,現(xiàn)實卻這么殘酷?
我認為有兩大原因:
第一,K-12對于個人學習速度差異的容忍度太差(教學進度被大綱高度約束);
第二,我們對于學習過程本身的理解太淺了,止于測評,而不及教學。因此,在不比寬度只比深度的K-12領域,自適應學習系統(tǒng)沒有優(yōu)勢。這并不是說它一無是處,而是說需要找到它自己的產品市場契合(product market fit)。在學生學習自愿,學習深度較淺,學習速度是客戶剛需的學習任務中,自適應學習系統(tǒng)會有其用武之地。
基于知識圖譜的自適應學習系統(tǒng)究竟有啥用?
假設有人把《五年高考三年模擬》這套書變成一個基于知識圖譜的自適應推薦系統(tǒng),它和紙質原版的優(yōu)勢在哪里?
(1)減少刷題數(shù)量
有兩類題不用刷了:已經掌握的(比如答對概率>95%)[5],根本沒有掌握的(比如答對概率<30%)。雖然不同人可以跳過的題是不相同的,但是我保守估計在相同效果下,每人的刷題數(shù)量可以降低30%以上。
(2)明確刷題優(yōu)先級
第一,前置知識點不掌握的優(yōu)先刷;第二,過難的題目排后刷。
(3)知識點的掌握程度的定量測評
作為自適應學習系統(tǒng)的副產品,用戶可以看到自己在各個知識點的掌握程度的估計。從提分的角度,我愿意大膽猜測這些改進并沒有什么用處:
降低刷題量沒有意義
對于大部分高三學生而言,少刷題省下來的時間干什么?答案是繼續(xù)刷題。只要邊際回報率為正,即使是0+(向右趨近于0),學生也會刷題。在現(xiàn)行考評制度下,自學大學內容的回報率可能還是負的[6]。
沒有額外教學環(huán)節(jié),刷題的提分效果有天花板
對于非天才而言,如果刷題有用,還要老師干嘛?因此,單純的練習(即使是帶文字講解的練習)是有提分上限的;更高效的練習只是更早地碰到這個提分天花板而已。如果時間不夠,可能有人達不到這個天花板;但是對于大部分人而言,時間是充裕的。推薦非練習類學習內容?非常遺憾,這不是基于知識圖譜的自適應學習系統(tǒng)能夠做的[7]。
成績提不上去的原因主要是不學,而不是學了不會
大部分買了《五年三年》的學生并沒有啃完這個大部頭,因為他們缺乏完成這項艱巨任務所必須的動機和毅力。盡管有證據(jù)顯示降低難度從而給與學渣更多的成就感可以增強他們的投入程度[8],但是從邏輯上講自適應學習系統(tǒng)本身并不解決動機問題。
雖然改造《五年三年》是一個極端的例子,但是它是自適應學習系統(tǒng)在K-12應用困境的一個縮影。具體而言:
(1)因為不鼓勵學習速度的差異化,所以提高速度沒有意義
每個學段都有按部就班的教學大綱,老師的考核以完成這個教學任務為準,而不是以最大化學生學習內容為準[9]。此外,因為公平的考量和師資能力的限制,也不鼓勵學生根據(jù)自己的節(jié)奏學習,學得快孩子還是得在終點線上等大部隊過來匯合[10]。
(2)對于教學指導而言,自適應教學系統(tǒng)的分析粒度太粗
老師并不怎么關心粗粒度知識點的掌握狀況(比如一元二次方程的求根公式),而比較關心學生對于知識點細節(jié)的掌握(比如求根公式的b前面是不是忘記添加負號)。分析引擎不能提供細粒度的教學數(shù)據(jù)支持,就無法切入教學環(huán)節(jié),提高教學質量[11]。而之所以不能把老師批卷子的過程自動化[12],事實上體現(xiàn)了算法對于學習行為的理解還是太少。
(3)不能解決學習興趣問題
學習是承認自己的無知,并拿出撞了南墻也不回頭的倔勁與自己的無知做斗爭的過程。除非對于所學內容非常感興趣或者有超乎常人的意志力,否則學習就是一件反人性的事情。一個學生同時喜歡語數(shù)外+文綜三科或者理綜三科的概率小到可以忽略不計;因此總有一科(或者幾科)對于學生而言是打心底里討厭,再怎么自適應也是討厭。
超越基于知識圖譜的自適應學習系統(tǒng)
籠統(tǒng)的說,學習數(shù)據(jù)分析要解決的大問題是以下三個:
(1)學生現(xiàn)在學成什么樣了?
(2)學生是怎么學的?
(3)老師是怎么教的?
任何一個學習淘寶/amazon/Netflix/今日頭條的推薦系統(tǒng),它都在第一個問題上做功夫;因為它必須做兩個核心假設:
(1)隱藏的偏好是穩(wěn)定的;
(2)系統(tǒng)的任務是識別并利用偏好,而不是改變偏好。
然而不幸的是,學習這件事違反了這兩個核心假設。知識點的掌握程度是可變的,因而不是穩(wěn)定的;學習系統(tǒng)的目的不僅在于識別知識點掌握程度的強弱,更在于讓學生習得其薄弱的知識點。如果說第一個假設還是個技術問題,那么第二個假設就是方向問題了。讓我繼續(xù)用淘寶推薦的例子來解釋目前主流的推薦系統(tǒng)和學習推薦的核心差別。
假設明天教育部宣布,所有人都必須喜歡闊腿褲,而不能喜歡連衣裙。那么淘寶面臨的問題是,怎么樣引導用戶通過一系列搜索行為,讓歡樂頌同款連衣裙的粉絲最后買了闊腿褲。我相信有過協(xié)同推薦算法經驗的同志看到這個問題肯定是一臉蒙圈了,但是這就是學習推薦系統(tǒng)要解決的問題。
教育部說所有人都要掌握力的平衡,但是現(xiàn)在用戶就是對找力無感,怎么樣通過一系列題目的練習使得用戶變成力平衡小達人?這個問題事實上涉及到我們對于學習過程的理解,而大多數(shù)情況下學習過程對于我們而言是一個黑盒。我也沒有看到哪家自適應學習系統(tǒng)真正系統(tǒng)性地思考這個問題。即使是行業(yè)標桿,在推薦時,主要以提高測評精度為主,而不是以提高教學效果為主。如果測評內容和學習內容的相關性不高,那么基于測評設計的自學推薦系統(tǒng)不能真正提分也不讓人驚奇。
從美國經驗來看,真正有效的學習推薦系統(tǒng)是從后兩個問題入手的。這里介紹一個從第三個問題入手的翹楚,Reasoning Mind[13]。Reasoning Mind將俄羅斯小學數(shù)學的紙質教案變成類似于人機對話的人工智能輔導,不僅大大提高了學生的課堂投入時間(根據(jù)一項測評指標投入度從60%提升到90%),而且多次在大范圍的隨機試驗中獲得統(tǒng)計上顯著[14]的提分效果。而頗讓我震驚的是,Reasoning Mind事實上沒有任何比算平均分更復雜的測評技術。
整篇文章有些悲觀,因此末了來點雞湯提提神:
路漫漫其修遠兮,吾將上下而求索。
注釋:
[1]芥末堆有一系列文章介紹knewton系統(tǒng)(1/ 推薦原理+知識圖譜+連續(xù)適應性+大數(shù)據(jù);2/ 從教學生應試到適應性學習平臺,Knewton的轉型之路;3/ 作為自適應學習平臺Knewton的系統(tǒng)是怎么運作的)
[2]大部分在業(yè)界受尊重的自適應學習系統(tǒng)是非盈利的,例如ASSISTment,Reasoning Mind,Khan Academy;唯一例外的ALEKS,其創(chuàng)始人在60+的高齡開始創(chuàng)業(yè),也基本不是為了錢。Knewton已經是一家值得尊敬的技術公司,但是還沒有成為一家受人尊敬的教育公司。
[3] Khan Academy在Gates Foundation資助的評估研究中乏善可陳。在美國教育評估的圣地WhatWorks Clearing House收錄的教育技術效果測評中,基本看不到自適應學習系統(tǒng)的身影。各大服務提供商自己提供的效果評估一般會強調“效果和使用強度成正比”。
[4] Reasoning Mind可能是唯一數(shù)次通過大規(guī)模效果評價試驗的,但是遺憾的是他們的自適應學習系統(tǒng)并不基于知識圖譜。
[5]這里不考慮為了保持熟練度而進行的重復練習。為了保證在考場上類似于神經反射的答題速度,重復做已經掌握的題也有一定意義。
[6]特別是文科。
[7]因為沒有顯性的可觀察變量,因此無法將潛在的知識點掌握程度外化出來,所以也無法進入推薦系統(tǒng);除非施加額外的推薦規(guī)則。
[8]匯報這種情況的自適應學習系統(tǒng)包括中國的學吧課堂和印度的embibe。這里的一個推論是老師的教學水平低于題目的文字解答。這種情況在自適應學習系統(tǒng)用戶中的比率有多大是值得思考的。
[9]一個典型的反例是蒙特梭利式的教學組織方式,不用年齡而用學習能力來組織教學活動
[10]典型的反例是美國的AP課程。我曾見到深圳某知名中學國際班的學生在高二就開始學AP Calculus,這樣的速度差距在中國大部分學校是不可想象的。
[11]云校在這個方面做了許多工作。期待他們開花結果,并且逼迫更多的教育公司模仿他們的做法。
[12]有種觀點認為,批卷子這種看似低效的信息提取方式幫助了老師更好地理解了學生情況的詳細情況,這種內化工程根本不應該由算法來替代;否則會降低老師據(jù)此進行“個性化”教學的能力。
[13] https://www.reasoningmind.org/
[14]一般在0.5個標準差左右,有一個實驗獲得了1個標準差以上。
本文轉載自愛行知(微信公眾號:k12edu-tech),作者馮俊晨。
2、芥末堆不接受通過公關費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。