芥末堆 紅印兒 12月20日
“當(dāng)你吃完一塊蛋糕,想再找一塊與之相似或者完全不同的蛋糕時,光靠蛋糕名字是很難進行判斷的?!?a href="/O/76673" target="_blank" title="考拉閱讀" class="goOId">考拉閱讀創(chuàng)始人兼CEO趙梓淳說,“你需要知道蛋糕里面都有哪些原料、原料配比如何,才能進行比較和選擇?!?nbsp;
這個情況也適用于兒童閱讀。2016年,全國共出版少年兒童讀物43639種,圖書種數(shù)比2015年增長19.12%。面對浩如煙海的書目,想在最短的時間里找到自己喜歡的讀物并非易事。尤其當(dāng)兒童還不夠了解自身的閱讀能力水平時,選擇適合自己的閱讀內(nèi)容就變得難上加難。
考拉閱讀希望用中文分級閱讀產(chǎn)品為K12學(xué)生提供適合的閱讀內(nèi)容。趙梓淳從兩個方面來解釋“適合”的意思,“一方面是孩子看得懂,也就是文本難度適合;另一方面是孩子感興趣,也就是內(nèi)容適合?!?nbsp;
細化內(nèi)容顆粒度,用分級閱讀標(biāo)準(zhǔn)量化文本難易度
要想給學(xué)生提供適宜的閱讀內(nèi)容,考拉閱讀需要一套能夠同時測量文本難度與學(xué)生閱讀能力的標(biāo)準(zhǔn),進而將學(xué)生與適宜難度的文本匹配起來。
實際上,英語分級閱讀中已有較為成熟的分級量化文本難度和讀者閱讀能力的做法,例如覆蓋美國50個州的藍思分級體系。藍思分級閱讀測評體系主要從詞頻和句長來判別文本的難度。但由于中文獨有的一些特點,這兩個判別維度都不完全奏效,考拉閱讀團隊需要對測量標(biāo)準(zhǔn)做很多特殊處理。
比如,中文里的一些低頻詞其實并不會過多影響讀者理解文本的意思。 “‘鬣狗’這個詞不常見,‘鬣’的字形還很復(fù)雜。但當(dāng)‘鬣狗’兩個字作為一個詞出現(xiàn)時,不認識‘鬣’字也不會影響閱讀理解?!?趙梓淳說,“所以不能單以詞頻來判斷中文文本的難度?!?/p>
考拉閱讀建立的中文分級語料庫
文本難度與閱讀能力測量是一項集統(tǒng)計學(xué)、語言學(xué)、數(shù)據(jù)挖掘、人工智能技術(shù)、心理學(xué)等多領(lǐng)域知識與應(yīng)用于一體的工作??祭喿x團隊處理了1300萬字非平衡語料庫,近兩億字平衡語料庫,最后搭建出名為“ER Framework”的中文分級測量標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)可以測量出任一中文文本的難易度或任一學(xué)生的閱讀能力,以200ER-1300ER為難度區(qū)間,數(shù)值越大,文本難度或是閱讀能力就越高。
基于ER Framework的測量結(jié)果,考拉閱讀的系統(tǒng)會自動為學(xué)生推薦難度適宜的圖書,學(xué)生也可以自主選擇與自己閱讀能力相匹配的圖書??祭喿x還在通過“圖書基因組計劃”對文本內(nèi)容做更加精細的解剖?!袄?,如果可以計算出某本書有3%的恐怖元素,另一本書的大部分內(nèi)容都跟圣誕節(jié)有關(guān),就可以進一步優(yōu)化圖書推薦的算法?!壁w梓淳說。
掃描學(xué)生閱讀能力,輔之精細化運營
測量出學(xué)生的閱讀能力是向?qū)W生推薦閱讀內(nèi)容的另一前提??祭喿x的閱讀能力測評涵蓋五大維度,對最基本的信息提取能力到較為高級的實際運用能力均有考察。
為了讓測試結(jié)果更加容易理解,考拉閱讀將ER值與學(xué)生在小學(xué)一年級到高中十二年級之間的閱讀能力對應(yīng)起來。一年級到十二年級的閱讀能力按照年級被分十二級,再按學(xué)生在該年級的就讀時長做進一步細分?!氨热?,‘5.1’就代表五年級學(xué)生在讀完五年級第一個月之后的閱讀能力水平?!壁w梓淳解釋。
閱讀能力測評標(biāo)準(zhǔn)基于學(xué)生的海量數(shù)據(jù)建立。截至2017年11月,考拉閱讀聯(lián)合教育部基礎(chǔ)教育質(zhì)量監(jiān)測中心和國家語委漢語智能教育中心采集了全國三十余萬K12學(xué)生的閱讀能力信息,繼而打磨出學(xué)生的閱讀能力量表和常模。
考拉閱讀建立的中文分級閱讀測量體系
不過,不同經(jīng)濟發(fā)展水平地區(qū)的同年級學(xué)生閱讀能力差異不小。例如,北京中關(guān)村某小學(xué)三年級學(xué)生的閱讀水平可以達到5.5,而甘肅省某鄉(xiāng)鎮(zhèn)小學(xué)三年級學(xué)生的閱讀水平卻只有1.6。因此,同一常模與量表在不同地區(qū)并不完全通用?!敖酉聛砦覀兿氚殉DW龅酶??!壁w梓淳說,“比如分別制作華東、華北、西北分區(qū)的量表?!?/p>
診斷出學(xué)生的閱讀水平之后,考拉閱讀會向?qū)W生推薦適合的閱讀材料?!拔覀兙拖窠袢疹^條那樣做推送,但推送不僅僅是基于學(xué)生的興趣?!壁w梓淳說??祭喿x推送的閱讀內(nèi)容包括自主研發(fā)的短篇閱讀、新課標(biāo)書目、兒童圖書大獎獲獎作品、京東和當(dāng)當(dāng)?shù)臅充N書等。
即便是同樣的文本,不同閱讀能力的學(xué)生看到的文本標(biāo)簽也會有所不同?!氨热绮芪能幍摹恫莘孔印愤@本書,一些學(xué)生看到的圖書標(biāo)簽是‘小菜一碟’,另一些學(xué)生可能會看到‘適宜閱讀’的標(biāo)簽,還有一些學(xué)生看到的標(biāo)簽可能是‘值得挑戰(zhàn)’?!壁w梓淳說,“每個孩子看到的都是不一樣的東西。”
推送自適應(yīng)的閱讀內(nèi)容只是考拉閱讀發(fā)力語文自適應(yīng)學(xué)習(xí)的第一步。相較于英語、數(shù)學(xué),語文輔導(dǎo)與學(xué)習(xí)的效率通常不高?!罢Z文的知識點不容易被串成線,只靠死記硬背的話,學(xué)生容易喪失興趣,學(xué)習(xí)效果也沒太大提高?!壁w梓淳說??祭喿x希望通過個性化的學(xué)習(xí)內(nèi)容讓語文整體能力提升的過程更有效且更可視。
B端與C端齊頭并進,瞄準(zhǔn)語文自適應(yīng)學(xué)習(xí)
學(xué)校是考拉閱讀推進語文自適應(yīng)學(xué)習(xí)的一個切入口。由于分級閱讀理念在國內(nèi)的認知度尚未很高,考拉閱讀的推廣過程其實也是教育市場的過程?!皠傞_始我們總是去講分級閱讀的各種理論和測量方法,發(fā)現(xiàn)學(xué)校老師并不理解?!壁w梓淳回憶,“后來我們就改為現(xiàn)場展示如何測量文本難度。大家親眼看到測試結(jié)果,就慢慢信服了?!?/p>
老師是考拉閱讀B端服務(wù)的主要使用者?!耙郧袄蠋熆赡苤皇墙o學(xué)生分配幾本階梯閱讀訓(xùn)練書,現(xiàn)在通過考拉閱讀的系統(tǒng),老師從終端上可以一鍵完成分發(fā),把更具針對性的閱讀內(nèi)容推送到學(xué)生的設(shè)備上?!壁w梓淳介紹,“這些分級閱讀內(nèi)容就像是數(shù)據(jù)驅(qū)動的教輔材料?!?nbsp;
考拉閱讀教師端效果圖
除了發(fā)放分級閱讀內(nèi)容,考拉閱讀還配套提供文本的導(dǎo)讀、思維導(dǎo)圖及測試題,便于老師與學(xué)生進行更多的互動,并同時追蹤實際的閱讀效果。另外,老師還可以在后臺看到學(xué)生學(xué)習(xí)與使用數(shù)據(jù)的分析結(jié)果。
這些數(shù)據(jù)不僅便于老師更有效地安排教育計劃,還為考拉閱讀優(yōu)化整個分級系統(tǒng)提供支持?!皬腂端回收的數(shù)據(jù)往往質(zhì)量更高?!壁w梓淳說,“C端的數(shù)據(jù)則可能不夠‘干凈’,比如學(xué)生的玩耍時間可能也會被計入閱讀時長?!?/p>
得到學(xué)校和老師的接受為考拉閱讀提升C端用戶的認可度奠定了基礎(chǔ)。目前,考拉閱讀還有小部分的海外用戶?!耙恍┖M庥脩羰墙讨形牡睦蠋??!壁w梓淳說,“主要是為了解決當(dāng)?shù)厝狈δ刚Z學(xué)習(xí)環(huán)境的問題?!彪S著AI技術(shù)的成熟與市場認知度的提升,趙梓淳相信C端用戶會越來越多。
考拉閱讀于12月5日宣布完成近千萬美金A輪融資,資金將主要用于累積底層AI技術(shù),打造“人工智能+閱讀”研究院XY Research,并逐步發(fā)力C端市場。
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。