芥末堆芥末堆

課程格子如何收集高校的課程數(shù)據(jù)?

  發(fā)布時間:

課程格子如何收集高校的課程數(shù)據(jù)?

  發(fā)布時間:

摘要:課程表類應(yīng)用基于課程表進行社交,超級課程表和課程格子有數(shù)百萬甚至上千萬用戶,但是前提是有課程數(shù)據(jù),來聽課程格子的工程師講述如何搜集高校的課程數(shù)據(jù)。

【芥末堆注】課程表類應(yīng)用基于課程表進行社交,超級課程表和課程格子有數(shù)百萬甚至上千萬用戶,但是前提是有課程數(shù)據(jù),來聽課程格子的工程師講述如何搜集高校的課程數(shù)據(jù)。以下摘自知乎問答:

做的過程并沒有看上去那么難,方法有以下三種:

1、教務(wù)系統(tǒng)接入,同步導(dǎo)出個人課表。我們并沒有一開始就做這個功能,而是等到擁有百萬用戶和很多熱心粉絲之后才開始做這個功能。我們從校園大使、熱心用戶那里收集到了1000所大學(xué)的教務(wù)地址、學(xué)生學(xué)號和密碼,然后分析了一下學(xué)校教務(wù)的賬號結(jié)構(gòu)。清華的那個同學(xué)說的很對,每個學(xué)校的結(jié)構(gòu)都不一樣,如果不更多的依靠技術(shù),無疑是一件費時費力的事情。我們也想過雇傭幾十個實習(xí)生,一個一個學(xué)校做。但覺得這個方法效率太低,可維護性太差,也不符合我們團隊的風(fēng)格。

我自己搭建了一套系統(tǒng),自動排查,迅速篩掉不可以做導(dǎo)入的學(xué)校,這些學(xué)校包括:屏蔽外網(wǎng)的、教務(wù)沒有課表的等等;然后是全自動的測試系統(tǒng),用登錄結(jié)果跟已知算法匹配。最后是輸出調(diào)整,根據(jù)輸出進行語義分析的調(diào)整。搭建整個系統(tǒng)用了一周,這一周正好收集到了賬號,然后在接下來的一周我們就解決了500所高校的導(dǎo)入問題。不過還是會有局限,這個工作不可能覆蓋全部的高校,所以注定更多的高校是沒有辦法連通教務(wù)導(dǎo)入課表的。

2、手動輸入課表。這個看上去簡單實際卻很復(fù)雜的問題。手動錄入之后,課程就被全校共享了,我們遇到過手動輸入全系50多門課的雷鋒用戶。關(guān)鍵在于:輸入信息錯誤怎么辦?重復(fù)怎么辦?我們的后臺有一整套自動算法,把這個問題解決90%。

3、另外就是錄入數(shù)據(jù)的問題,我們試圖導(dǎo)入全校數(shù)據(jù),不過發(fā)現(xiàn)效果不好,也就導(dǎo)入了清華北大,因為團隊里面有清華北大的同學(xué),其他的沒怎么弄。

其實最讓我們意外的是用戶產(chǎn)生數(shù)據(jù)的積極性,超過了我們的預(yù)期,用戶貢獻內(nèi)容比例非常高。隨著數(shù)據(jù)生成的方式多樣化和已有數(shù)據(jù)積累,也許以后我們能做到課程數(shù)據(jù)的零輸入。

總體來說,這是一個復(fù)雜但有挑戰(zhàn)的技術(shù)問題。我們也沒有百分之百解決。

文章來自知乎回答,作者黃祥旦,課程格子工程師。

1、本文是 芥末堆網(wǎng)轉(zhuǎn)載文章,原文來自于互聯(lián)網(wǎng);
2、芥末堆不接受通過公關(guān)費、車馬費等任何形式發(fā)布失實文章,只呈現(xiàn)有價值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報道,請您 填寫信息告訴我們。
來源: 互聯(lián)網(wǎng)
芥末堆商務(wù)合作:王老師 18710003484
  • 課程格子如何收集高校的課程數(shù)據(jù)? 分享二維碼