亚洲成a人片在线观看电影,久久综合第五页

屏幕快照 2016-06-24 下午3.40.21.jpg

圖片來源：pixabay

在教育倍受重視的今天，在線教育行業(yè)也發(fā)展的如火如荼。拍照搜題、在線答疑的核心技術(shù)究竟如何？在線教育行業(yè)背后的架構(gòu)又是怎樣？一起來看看吧！

從某種角度說，我們可以做一些補(bǔ)充性，或者說問題降解、難度降解的事情。我們把學(xué)生某種學(xué)習(xí)行為數(shù)據(jù)用一種手段，比如拍照搜題、1V1答疑，還有很多其他的模塊，收集起來，進(jìn)行建模。然后做成各種各樣的模型，輸送給另外一個(gè)大腦。在這個(gè)過程中，我們就完成了部分知識或者記憶的傳輸。然后我們想做的是，利用他山之石來讓其他一些學(xué)生可以攻玉，這個(gè)就是學(xué)霸君要做的事情。

今天想跟大家分享的有幾點(diǎn)。首先簡單介紹一下，我們的創(chuàng)業(yè)動(dòng)機(jī)，然后是開始的第一步，即搜題的一些核心技術(shù)。另外，我還會(huì)講講1V1的實(shí)時(shí)答疑，這方面也有很多核心技術(shù)。

屏幕快照 2016-06-24 下午3.22.16.jpg

學(xué)霸君簡介

首先，跟大家簡單分享一下我們學(xué)霸君的簡史。

屏幕快照 2016-06-24 下午3.25.03.jpg

我們在2012年11月開始創(chuàng)建團(tuán)隊(duì)，摸索了一年，終于在2013年的10月1號懷著忐忑的心情，把第一版的拍照搜題的APP推送上線。我們是非常緊張的，因?yàn)槟菚r(shí)候，國內(nèi)還沒有太多這樣類型的產(chǎn)品可以參考。它的實(shí)際效果、搜索命中率是怎么樣，都是個(gè)未知數(shù)。

等到第一版上線的時(shí)候，我們發(fā)現(xiàn)，用了一大堆非常裸、非常的低效的平平手段創(chuàng)造出來的OCR加搜題的模塊，能夠達(dá)到百分之四十幾的搜索命中率。我們覺得這個(gè)東西有戲。在那個(gè)之后，我們逐步迭代各種版本，到現(xiàn)在已經(jīng)發(fā)布了三個(gè)主要的文字識別版本，大概是93%左右的搜索命中率。到目前累計(jì)搜索接近20億次。每一道題的搜索，后面緊密連接一個(gè)電話號碼，就是學(xué)生注冊的時(shí)候填寫的電話號碼。這有什么用呢？等一下我會(huì)跟大家分享一下。

在2015年9月1號，我們首推了實(shí)時(shí)答疑。然后第二波的征程就開始了。中國學(xué)生比較靦腆，很多時(shí)候遇到問題不敢問、不想問、不會(huì)問。老師的情況是，在二三線城市的老師的薪酬并不是特別高，但是他們有一部分空閑時(shí)間。大部分中國的家長都是望子成龍的，愿意付很多的錢投資在小孩的學(xué)習(xí)上，他自身又沒有時(shí)間和能力去輔導(dǎo)他。這樣，學(xué)生在有問題的時(shí)候，沒法得到有效的解決。在這種情況下，我們就進(jìn)一步衍生了一個(gè)實(shí)時(shí)答疑的產(chǎn)品，把相隔千山萬水的老師跟學(xué)生之間的距離變成了5秒。

我們的模式是，可以把它理解為在線教育的Uber，用手機(jī)APP去呼叫老師，呼叫服務(wù)。學(xué)生遇到題目不懂，任意一個(gè)位置的學(xué)生拿起手機(jī)來直接就拍，拍了之后，我們就會(huì)對他進(jìn)行識別，會(huì)搜索，把答案推出來。甚至有解析，解析非常重要。如果學(xué)生看不懂，呼叫一下老師，老師會(huì)跟學(xué)生互動(dòng)，他會(huì)用相應(yīng)的策略去講不一樣的解題思路。

我們用這個(gè)APP就做到這樣一個(gè)效果：老師拿題就講，學(xué)生不懂就問，問懂為止，真正做到今日難題今日斃。在這樣的模式下，我們所推崇的就是效率的提升，這是我們在學(xué)習(xí)里面經(jīng)常不能得到滿足的一個(gè)比較大的問題。怎么樣做到這些呢？

拍照搜題核心技術(shù)

接下來講核心技術(shù)。首先，為什么要去做大量的行為數(shù)據(jù)的采集。行為數(shù)據(jù)的采集實(shí)際上是學(xué)霸君在做的真正的內(nèi)容，拍照搜題、1V1答疑也只是采集數(shù)據(jù)的兩種手段。以后，我們還有其他的采集手段會(huì)逐步開放出來。2012年、2013年創(chuàng)業(yè)初期，我們思考的一個(gè)問題是，怎么樣去捕捉學(xué)生的大腦?？刂普摰淖鎺煚斒峭?，他對控制系統(tǒng)提出兩個(gè)指標(biāo)，一個(gè)是可觀，一個(gè)是可控。而學(xué)生的大腦是極度不可觀測、極度不可控制的一個(gè)系統(tǒng)。那怎么樣去觀察學(xué)生大腦里面的一些東西，并且勾勒出能力缺陷的空間呢？

我們討論了很久，決定從所有的書籍開始入手。怎么樣去采集書籍的內(nèi)容，這個(gè)就最終導(dǎo)致我們花了很多精力去做拍照搜題的一個(gè)產(chǎn)品。有了一個(gè)idea之后，我們非常興奮，但是馬上就遇到一個(gè)坎，發(fā)現(xiàn)文字識別實(shí)在太難了。那時(shí)候我們還沒有專門的歐西亞團(tuán)隊(duì)，都是技術(shù)的小白。我們所搜集到的圖片都是亂七八糟的圖，有非常模糊的，有各種扭曲的。這個(gè)是技術(shù)難題，但是我們必須要解決。

我們就開辟一條跑道，這個(gè)跑道非常曲折，在這條彎路上，先后探索了印刷體、中文識別、公式識別、英文識別、表格識別、圖像識別、自然語言處理、手寫識別、卷面的版面分析，以及高并發(fā)的圖像的處理框架，這些都構(gòu)成了基礎(chǔ)識別團(tuán)隊(duì)。然后相應(yīng)的團(tuán)隊(duì)也已經(jīng)組建起來。

文字識別上，第一步要做的就是單個(gè)文字的識別。我們用的是深度學(xué)習(xí)的技術(shù)，從20億的虛擬字庫里面去進(jìn)行訓(xùn)練，最終的單字識別率現(xiàn)在是99.5%。考慮到里面有很多是模糊字，所以在清晰的情況下，基本上就是四個(gè)九到五個(gè)九左右級別的精度。這張圖顯示的是基本的技術(shù)結(jié)構(gòu)。模擬神經(jīng)網(wǎng)絡(luò)，有若干個(gè)輸入，輸入之后有正向的應(yīng)急信號，也有正向的增強(qiáng)信號，也有負(fù)向的抑制信號，所有信號疊加之后，有綜合的輸出。然后我們把所有的網(wǎng)絡(luò)用大概幾千萬或者是幾百萬個(gè)單元組合在一起。

分享一個(gè)題目。對于一張圖片，我們切割出來，一個(gè)字一個(gè)字，每個(gè)字首先做一次卷集，把它某種方向的一個(gè)特征提取出來。第二步做一次下采樣，把它變成一個(gè)更小的一個(gè)圖。第三步再做一次卷集，然后變成看不太清楚，但是反映了一些文字的高層特征的圖。第四步再做一次下采樣，會(huì)變成一個(gè)更小的圖，然后做一個(gè)全連接，這是一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)。最終的輸出實(shí)際上是對所有字的自信度的打分。比如說在這個(gè)結(jié)果里面，層次是91%的進(jìn)度，那么這個(gè)圖片對應(yīng)的就是層的一個(gè)輸出。

屏幕快照 2016-06-24 下午3.26.50.jpg

然后我們還克服了若干其他的問題?，F(xiàn)在完成了這樣的一個(gè)場景，就是我們可以把人眼基本上看不太清楚的東西，變成可以看見的東西。像這張圖里面，現(xiàn)在就可以把它浮現(xiàn)到可讀可識別這樣一個(gè)階段，這也是圍繞著圖像處理的一些手段。還有手寫識別，在拍題搜題里面，它的出現(xiàn)概率不會(huì)很多，2%左右，但是這一塊的技術(shù)，對1V1答疑是一個(gè)基礎(chǔ)的技術(shù)。

先看一個(gè)結(jié)果。這是我們在收集拍攝、拍照搜題出來的一個(gè)結(jié)果，里面的正確率基本上還可以，但是有一個(gè)錯(cuò)誤，這個(gè)錯(cuò)誤實(shí)際上導(dǎo)致了，數(shù)學(xué)引擎技術(shù)沒法完全波接這樣一個(gè)結(jié)果。如果這一套，這個(gè)字也識別對了，負(fù)一識別為負(fù)一的話，這道題在從數(shù)學(xué)引擎上是可解的。我們會(huì)進(jìn)入另外一個(gè)環(huán)節(jié)，就是對題目畫像。我們會(huì)把所有提干進(jìn)行一個(gè)拆解，然后把一些已知因素跟未知因素處理出來，做數(shù)學(xué)、語法素的應(yīng)用，最終把答案推理出來。

屏幕快照 2016-06-24 下午3.27.26.jpg

說了那么多，我來說一下應(yīng)用。在1V1實(shí)時(shí)答疑里面，假設(shè)這樣一個(gè)場景，老師在講題的時(shí)候，上面會(huì)不斷顯示，最重要的是類人腦的，或者沒有那么智能，而是一個(gè)某種程度上會(huì)思考的引擎，首先會(huì)分析老師的筆記。老師在上面畫了一張圖，我們會(huì)先做圖形的識別，它是一個(gè)立方體，有哪些虛線，哪些實(shí)線？

接下來會(huì)分析。比如說在這里面它寫了幾何法，后面寫了一個(gè)向量法，幾何法跟向量法都可以觸發(fā)相應(yīng)的知識圖譜，這個(gè)知識圖譜是圍繞著題庫建立起來的另外一個(gè)知識體系?；蛘咚麑懥艘粭l式子，在這種情況下，直接就把式子算出來了。

老師在講課的時(shí)候，他不是孤身作戰(zhàn)，他所講的內(nèi)容，得到我們的知識體系的支撐。然后會(huì)分析他需要什么，不斷為他聯(lián)動(dòng)一些要講的內(nèi)容。還有更重要的是，所有觸發(fā)在分析引擎的時(shí)候，我們會(huì)把數(shù)據(jù)收集下來，這個(gè)才是對我們最有價(jià)值的，老師怎么講、用了哪些素材，最終會(huì)進(jìn)入數(shù)據(jù)庫。

第四個(gè)，是智能版面分析引擎。接下去我們要做的事情會(huì)更有意思。所有的卷子、書籍，首先可以做校正，然后會(huì)做智能化的切割，一道題一道題切割出來。如果這道題是可以解的，那我們給它解出來，如果這道題是數(shù)據(jù)庫有的，我們從數(shù)據(jù)庫搜索出來。每道題的頻次、考分、重要性全部分析出來。然后所有學(xué)習(xí)數(shù)據(jù)，就可以幫助學(xué)生去更精準(zhǔn)投放時(shí)間，避免時(shí)間浪費(fèi)。我們通過圖像的切片，可以把整個(gè)任務(wù)切成一小塊一小塊，然后分發(fā)給圖像的云處理機(jī)群，做并發(fā)處理，最后把它拼接成綜合的結(jié)果，發(fā)送給相應(yīng)的處理終端。這個(gè)是我們云的架構(gòu)。

屏幕快照 2016-06-24 下午3.28.01.jpg

1V1實(shí)時(shí)答疑核心技術(shù)

1V1實(shí)時(shí)答疑實(shí)際上可以類比為一個(gè)Uber打車的模式。我們把它說成是滴滴叫老師。這個(gè)模式一個(gè)核心技術(shù)，就是讓最合適的老師給一個(gè)學(xué)生講題。我們的老師不一定都是國家級優(yōu)秀老師，有很多老師在二三線城市耕耘了很多年，有不錯(cuò)的講課經(jīng)驗(yàn)，但是還沒有達(dá)到最頂級老師的水平。通過這樣的機(jī)制，讓老師不斷去提升在某個(gè)垂直知識點(diǎn)的熟練程度，不斷優(yōu)化，不斷優(yōu)化，不斷優(yōu)化。這個(gè)老師在某個(gè)曲折點(diǎn)上，他能講出比一級老師更嫻熟的內(nèi)容，這是我們的一個(gè)核心理念。

在調(diào)度上，我們有各種各樣的挑戰(zhàn)。首先老師的上線時(shí)間是不確定的，每一個(gè)老師上傳的板塊不一致，各地的考綱不同，講題方式也不同。學(xué)生是隨機(jī)提問的，對價(jià)格的敏感程度不一樣，一線城市可能愿意多花點(diǎn)錢，二線城市可能對比較優(yōu)惠的策略更感興趣。對于獲得的結(jié)果期待也不同。

所以，我們對各種策略需要有一個(gè)智能化的控制。然后大家看到這個(gè)系統(tǒng)是簡單的寫照。如果一個(gè)學(xué)生有問題，發(fā)起請求，然后進(jìn)入調(diào)度中心，這個(gè)調(diào)度中心會(huì)在問題空間里面選取若干個(gè)老師，然后發(fā)送，最后老師接單，就是這樣一個(gè)流程。

隱藏的技術(shù)就由這個(gè)架構(gòu)體現(xiàn)。最底層的是知識模型，包括知識導(dǎo)航、知識圖譜。往上一層，包括學(xué)生畫像跟老師畫像兩塊的用戶畫像，當(dāng)然家長畫像也是非常重要的。還有第三個(gè)，往上走就是預(yù)測算法。因?yàn)楣┬桕P(guān)系必須平衡，不平衡會(huì)導(dǎo)致整個(gè)系統(tǒng)崩潰，所以這塊也是非常重要的。最上面是偏運(yùn)籌學(xué)方面的工作，需要對老師的需求跟供應(yīng)進(jìn)行建模，然后做最優(yōu)化、智能的調(diào)度。

屏幕快照 2016-06-24 下午3.28.58.jpg

現(xiàn)在我們已經(jīng)收集了接近20億次的學(xué)生提問、幾千萬左右的題目。我們使用自然語言理解，還有深度學(xué)習(xí)，對這些題目跟知識做梳理，然后把它整理成樹狀的結(jié)構(gòu)。比如說高中數(shù)學(xué)，現(xiàn)在有七大板塊，22個(gè)章節(jié)，550個(gè)知識點(diǎn)，三千多個(gè)題型，根據(jù)各地的考綱的不同，會(huì)有不同的版本，然后這些版本會(huì)導(dǎo)致問題更細(xì)致化。

但是整體的思想是，建成一個(gè)樹狀結(jié)構(gòu)的導(dǎo)航體系，可以把它類比為Uber系統(tǒng)的GPS，就用這個(gè)去分類各種題目、學(xué)生畫像等。接下來看一下怎么去用這個(gè)東西。第一個(gè)問題是，學(xué)生畫像是非常有意思的問題，學(xué)生是千人千面，沒有兩個(gè)學(xué)生是完全一樣的，但是我們通過某種統(tǒng)計(jì)規(guī)律可以抽象出一些共性，然后就可以用來做很多事情。

這張圖給大家看一下我們怎么去分析學(xué)生的共性，怎么去用這種拍照搜題數(shù)據(jù)。每個(gè)學(xué)生在系統(tǒng)里面呈現(xiàn)出很多的數(shù)據(jù)，這個(gè)數(shù)據(jù)就是我們非常大的財(cái)富，然后不斷去挖掘里面隱含的信息。首先用剛才說的那個(gè)GPS系統(tǒng)，就是知識的建模，把每一個(gè)題目的知識點(diǎn)抽樣出來，變成一個(gè)輸入，接上時(shí)間軸，把它扔進(jìn)一個(gè)深度神經(jīng)網(wǎng)絡(luò)，這時(shí)候就可以抽取學(xué)生的各種特征。然后接下去，我們可以做一些分析。

屏幕快照 2016-06-24 下午3.29.31.jpg

舉個(gè)例子，可以看到學(xué)生的行為有個(gè)時(shí)間軸。學(xué)生的行為實(shí)際上是動(dòng)態(tài)變化的，不是固定的，今天學(xué)代數(shù)，明天學(xué)幾何，會(huì)不斷變化，學(xué)生所問的問題，或者說需求的問題不斷變遷。那在這種情況下，有一個(gè)現(xiàn)象是可以利用的，就是學(xué)生之間的共性。比如說A學(xué)生，問了若干系列的問題，B學(xué)生問了若干系列的問題，后來來了個(gè)C學(xué)生，我們發(fā)現(xiàn)A學(xué)生B學(xué)生的共性非常強(qiáng)，那C學(xué)生接下去想問的問題或想了解的內(nèi)容，可以通過前面A學(xué)生B學(xué)生所形成的聚集去預(yù)測，這個(gè)對于分配老師、調(diào)度老師的策略上是非常有幫助的。

屏幕快照 2016-06-24 下午3.30.07.jpg

老師的畫像跟學(xué)生的畫像是完全不一樣的兩個(gè)問題。老師沒有學(xué)習(xí)階段的時(shí)間軸，很多老師各個(gè)年級都能講，但是他所講程度不太一樣。為了對老師進(jìn)行適當(dāng)?shù)姆诸?，我們用了這樣的策略，就是競爭神經(jīng)網(wǎng)絡(luò)。我們把所有的老師，大概有幾千到接近一萬老師，映射到一張地圖，這是數(shù)據(jù)計(jì)算出來的地圖，用類似于商級來區(qū)分不同老師的分類，每種顏色代表著老師的一個(gè)類，這個(gè)只是龐大地圖里面的一小塊。

比如，綠色代表著老師會(huì)講立體幾何，紅色代表會(huì)講立方體這一塊，等等。對所有老師建模之后，注冊一個(gè)新的老師，他講若干道題之后，開始對這個(gè)老師進(jìn)行定位。比如，他講了立體幾何，可能還講了其他一些題，但是他立體幾何比較擅長，那最終會(huì)把他定位到這一個(gè)區(qū)域里面，然后不斷讓他講這塊內(nèi)容。這個(gè)就是我們老師畫像的應(yīng)用，這體現(xiàn)了需求和供應(yīng)兩方面。

屏幕快照 2016-06-24 下午3.30.41.jpg

需求供應(yīng)，我們需要去量化。接下一個(gè)核心技術(shù)就是需要去預(yù)測，每一個(gè)知識點(diǎn)、每一個(gè)知識板塊，有多少的供應(yīng)量，有多少的需求量，可以去設(shè)計(jì)老師的人源池的分配。每個(gè)地區(qū)供需關(guān)系不太一樣，這導(dǎo)致一個(gè)非常有意思的數(shù)學(xué)問題，就是龐大數(shù)據(jù)集多時(shí)序的一個(gè)預(yù)測。每個(gè)老師都有一個(gè)相應(yīng)講題的頻次、數(shù)量等，幾個(gè)月下來，基本上可以估出它的模式，然后就可以對每個(gè)老師的上線時(shí)間進(jìn)行預(yù)測，對講題的供應(yīng)能力進(jìn)行預(yù)測。

屏幕快照 2016-06-24 下午3.31.11.jpg

最后，根據(jù)歷史結(jié)果來估算老師未來的服務(wù)能力，然后可以對不同老師的能力進(jìn)行排序，有需求的時(shí)候，會(huì)根據(jù)這種排序去進(jìn)行動(dòng)態(tài)的調(diào)度。這里面就有啟發(fā)性搜索的算法。接下來我們就講精益工程里面經(jīng)常用的庫存模型，把它用到1V1時(shí)答疑里面去，這個(gè)模型叫做Make to Order，就是按需求去生產(chǎn)。

生產(chǎn)系統(tǒng)里面基本上有三個(gè)主要角色。首先是協(xié)調(diào)管理和調(diào)度的人員，我們現(xiàn)在是用95%的自動(dòng)化加5%的人工去進(jìn)行協(xié)調(diào)管理，其目的就是為了調(diào)整老師跟學(xué)生之間的匹配關(guān)系。老師答疑的供應(yīng)，可類比為庫存，整個(gè)系統(tǒng)不斷生產(chǎn)，老師會(huì)不斷出來，如果庫存積壓的話，有庫存成本。

學(xué)生答疑的需求，可類比為市場需求，如果市場的需求不能得到滿足的話，那收入就會(huì)流失，如果需求太少的話，整個(gè)系統(tǒng)也跑不起來。這樣的系統(tǒng)建立一個(gè)數(shù)學(xué)模型，X代表著庫存大小，γ 1、γ 2代表著老師到來的頻次、學(xué)生到來的頻次。這就是一個(gè)數(shù)學(xué)問題了。

屏幕快照 2016-06-24 下午3.31.41.jpg

我們把它建成一個(gè)Markov過程，這是實(shí)實(shí)在在放在后臺(tái)調(diào)度的一個(gè)模塊。然后可以把Markov過程想象成為狀態(tài)機(jī)，有不同的狀態(tài)，每個(gè)狀態(tài)可以互相跳變，但是這個(gè)跳變有一定的概率。我們可以去模擬各種各樣稀奇古怪的分布，老師的分布不一定是正態(tài)分布或者指數(shù)分布那樣工正，可能是雙峰值、后尾的等。為了預(yù)測比較好的準(zhǔn)確度，用了非常特殊的一個(gè)分布區(qū)域?qū)λM(jìn)行建模。

建模之后，我們就可以做隊(duì)列的模型。老師進(jìn)來，服從這樣一個(gè)Markov過程，學(xué)生到來，服從另外一個(gè)Markov過程，它的參數(shù)是不一樣的。學(xué)生過來之后，如果有老師在等待隊(duì)列里面，他們就可以匹配，形成服務(wù)的一個(gè)對接，這就是一個(gè)好的開始。有了剛才Markov過程，接下去就是列出一大堆平衡方程，總共大概有幾十萬到一百萬的平衡方程，基本上是描述各種狀態(tài)之間的跳變。

然后再加歸一化條件，所有的概率的核等于1。接下去就可以解線性方程，最終得到一個(gè)非常有意思的結(jié)果，就是隊(duì)列的一個(gè)分布、老師的概率，隊(duì)列里面有兩個(gè)老師的概率，有三個(gè)老師的概率，再細(xì)化一點(diǎn)，就是隊(duì)列里面輔導(dǎo)立體幾何的老師在等待的概率、輔導(dǎo)函數(shù)的五個(gè)老師在等待的概率。就可以幫我們推導(dǎo)運(yùn)籌學(xué)的收益優(yōu)化的模型。

屏幕快照 2016-06-24 下午3.32.15.jpg

這是非常簡單的版本，它主要包括幾個(gè)模塊。一個(gè)是答疑總量，這個(gè)是正向的，答疑總量越大，我們收益率越高，還有答疑評分越高的話，基本上來說收益會(huì)更好。一個(gè)是提問流失，是負(fù)向的，如果流失的提問，我們效益要緊逼。老師閑置也是負(fù)向的，這個(gè)也會(huì)打擊老師的積極性，然后再減去其他的成本，實(shí)際上還有很多很多其他的因素。

老師的實(shí)際可調(diào)配的量是小于最大的供給量的，即，最大不可能超過注冊老師的供應(yīng)量。然后就有一個(gè)非常有意思的調(diào)度策略，實(shí)際上相當(dāng)于滴滴司機(jī)排班這樣的策略，但是我們對老師有一定的干預(yù)能力。我們會(huì)從需求上預(yù)測，大概在某個(gè)時(shí)間點(diǎn)需要多少老師，把它切為若干時(shí)間片，每個(gè)時(shí)間片需要多少老師。最后，會(huì)向老師推送一些信息，這個(gè)時(shí)間點(diǎn)你上線，有更多的單子，那老師就會(huì)來。這些信息最終歸結(jié)為最優(yōu)化的問題，可以用很多的算法。

屏幕快照 2016-06-24 下午3.33.08.jpg

簡言之，我們現(xiàn)在用了遺傳算法在做在線的優(yōu)化。遺傳算法簡單時(shí)顯，實(shí)際上就是通過不斷的迭代、計(jì)算，把一些解不斷優(yōu)化，X1、X2、X3到X8就代表著每一個(gè)時(shí)間的一個(gè)片斷的一個(gè)排單量，然后通過兩種算子，一種是交叉，一種是編譯，不斷去形成更優(yōu)的排班。迭代很多次計(jì)算之后，總體的收益函數(shù)會(huì)不斷上升，直到比較好的結(jié)果。這個(gè)就是我們最終的排班策略。

為什么排班策略很重要，為什么調(diào)度策略非常重要？非常簡單，這是一個(gè)速度決定著生死的市場，如果沒法在很短的時(shí)間內(nèi)聚集足夠有用的數(shù)據(jù)量，我們是完不成數(shù)據(jù)采集的最終目標(biāo)的。如果爬坡速度夠快，那可以有足夠的數(shù)據(jù)量，去推進(jìn)下一步的業(yè)務(wù)，把數(shù)據(jù)全部用起來，可以做很多事情。如果沒有的話，基本上到后面就是會(huì)走向消亡，這個(gè)是非常殘酷的一個(gè)現(xiàn)實(shí)。

屏幕快照 2016-06-24 下午3.33.41.jpg

學(xué)霸君在收集20億左右拍照搜題的題目之后，接下去的目標(biāo)是一千萬、非常高質(zhì)量的、1V1的視頻樣本。1V1視頻樣本是非常特殊的數(shù)據(jù)，它只有一個(gè)人講、一個(gè)人問，然后只針對一道題。像手機(jī)講話，它非常垂直、非常精準(zhǔn)，有大量的數(shù)據(jù)在圍繞它做一個(gè)標(biāo)注，比如有圖庫做支撐，有圖譜知識做支撐，拿這些東西去做語音的訓(xùn)練也好，去做知識的建模也好，都是非常有價(jià)值的。

最后能夠拿到現(xiàn)在國內(nèi)還沒有人擁有的垂直領(lǐng)域的教學(xué)模型。我們就把它放到計(jì)算系統(tǒng)里面。這個(gè)計(jì)算系統(tǒng)分為兩層。第一層是CPU跟GPU計(jì)算機(jī)群，現(xiàn)在很多的最優(yōu)化機(jī)器學(xué)習(xí)都放在這樣機(jī)群里面去算。但是機(jī)器不是萬能的。我們搭建了人工自有系團(tuán)隊(duì)，去標(biāo)注各種各樣的數(shù)據(jù)，然后綜合起來。我們會(huì)不斷去提煉里面的模型。

數(shù)據(jù)庫主要有三個(gè)，一是題庫、學(xué)生庫、老師庫，二是更高層的拍題的一些記錄，三是1V1講題記錄，這是更高層的數(shù)據(jù)記錄。我們的數(shù)據(jù)挖掘工程師，不斷去做各種各樣的計(jì)算流，把它扔到這個(gè)平臺(tái)里，從各個(gè)側(cè)面去挖這樣的數(shù)據(jù)，比如說哪些題是更高頻的、這個(gè)學(xué)生需要問什么問題、這個(gè)學(xué)生以后三個(gè)月需要學(xué)習(xí)什么，這是知識性學(xué)習(xí)的問題，等等。還有一些報(bào)表的結(jié)果。

屏幕快照 2016-06-24 下午3.34.14.jpg

小結(jié)

最后總結(jié)一下，學(xué)霸君是做什么的？我們是一家做教育行為數(shù)據(jù)采集的公司，采集的手段有圖像識別、手寫識別、工人識別、文檔分析，還有音視頻數(shù)據(jù)的采集，還有識別。這是第一步。第二步，就是做分析。我們用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)去做各種題目的建模、人物的建模，還有整個(gè)調(diào)度模式的建模，然后把它用到體系里面，不斷推高數(shù)據(jù)采集的速度。最終，我們把它用在培訓(xùn)上，會(huì)跟其他人合作，或者是會(huì)有一些相應(yīng)的業(yè)務(wù)。

實(shí)際上我們是開數(shù)據(jù)挖掘機(jī)的。

本文轉(zhuǎn)載自InfoQ，作者陳銳鋒。

芥末堆注：學(xué)霸君方面表示，目前學(xué)霸君的用戶為5500萬，日活350萬，每天解決1800萬道難題，已經(jīng)累計(jì)為用戶答疑超過40億次。

芥末堆注：如需聯(lián)系該作者／創(chuàng)業(yè)者，歡迎發(fā)送需求到service@jmdedu.com，芥末堆幫你牽線搭橋。

1、本文是芥末堆網(wǎng)轉(zhuǎn)載文章，原文：InfoQ；
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章，只呈現(xiàn)有價(jià)值的內(nèi)容給讀者；
3、如果你也從事教育，并希望被芥末堆報(bào)道，請您填寫信息告訴我們。

來源：InfoQ

芥末堆商務(wù)合作：王老師 18710003484

拍照搜題、在線答疑，媽媽再也不用擔(dān)心我的學(xué)習(xí)？靠什么核心技術(shù)？

拍照搜題、在線答疑，媽媽再也不用擔(dān)心我的學(xué)習(xí)？靠什么核心技術(shù)？

圖片來源：pixabay

學(xué)霸君簡介

拍照搜題核心技術(shù)

1V1實(shí)時(shí)答疑核心技術(shù)

小結(jié)

編輯推薦

拍照搜題、在線答疑，媽媽再也不用擔(dān)心我的學(xué)習(xí)？靠什么核心技術(shù)？

拍照搜題、在線答疑，媽媽再也不用擔(dān)心我的學(xué)習(xí)？靠什么核心技術(shù)？

圖片來源：pixabay

學(xué)霸君簡介

拍照搜題核心技術(shù)

1V1實(shí)時(shí)答疑核心技術(shù)

小結(jié)

編輯推薦

拍照搜題、在線答疑，媽媽再也不用擔(dān)心我的學(xué)習(xí)？靠什么核心技術(shù)？

拍照搜題、在線答疑，媽媽再也不用擔(dān)心我的學(xué)習(xí)？靠什么核心技術(shù)？