機(jī)器學(xué)習(xí),正在以及將要如何改變知乎?
回答這個(gè)問(wèn)題的最佳人選,莫過(guò)于知乎合伙人、大數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人李大海。這位曾經(jīng)供職Google的工程師,最近就在斯坦福詳細(xì)解讀了知乎是什么,知乎正在如何使用機(jī)器學(xué)習(xí),以及未來(lái)機(jī)器學(xué)習(xí)能帶給知乎怎樣的想象空間。
對(duì)于知乎來(lái)說(shuō),使用機(jī)器學(xué)習(xí)技術(shù),可以更加精細(xì)地對(duì)用戶(hù)和內(nèi)容進(jìn)行建模,促進(jìn)內(nèi)容生產(chǎn)和內(nèi)容分發(fā)的效率。
李大海透露,知乎對(duì)機(jī)器學(xué)習(xí)的應(yīng)用劃分為6大場(chǎng)景:用戶(hù)畫(huà)像、內(nèi)容分析、排序、推薦、商業(yè)化和社區(qū)管理。更多詳細(xì)的介紹,在下文中展開(kāi)。歸根結(jié)底一句話(huà),就是將機(jī)器學(xué)習(xí)技術(shù)用于內(nèi)容的生產(chǎn)和分發(fā)。
未來(lái),知乎希望在機(jī)器學(xué)習(xí)的幫助下,不止是分發(fā)內(nèi)容,還能更深入的理解內(nèi)容。
理解內(nèi)容涉及兩個(gè)方面:一方面是要從用戶(hù)生產(chǎn)的非結(jié)構(gòu)化內(nèi)容中抽取、組織各種知識(shí)和觀點(diǎn),變成知乎知識(shí)庫(kù)的一部分;另一方面,要能把知識(shí)庫(kù)的內(nèi)容轉(zhuǎn)變成用戶(hù)友好的產(chǎn)品。
以下就是李大海解讀知乎與機(jī)器學(xué)習(xí)的詳細(xì)內(nèi)容,量子位編輯:
李大海
大家好,我是李大海,現(xiàn)在是知乎的合伙人,同時(shí)也是知乎大數(shù)據(jù)團(tuán)隊(duì)的負(fù)責(zé)人。我在知乎的一個(gè)很重要的工作,就是推動(dòng)機(jī)器學(xué)習(xí)技術(shù)的應(yīng)用和落地。今天很榮幸能夠來(lái)到斯坦福,跟大家一起交流。
今天的話(huà)題是知乎與機(jī)器學(xué)習(xí),這是我們首次站出來(lái)表達(dá)對(duì)機(jī)器學(xué)習(xí)的重視以及對(duì)機(jī)器學(xué)習(xí)高手的渴求。接下來(lái),我會(huì)重點(diǎn)圍繞兩個(gè)方面的內(nèi)容來(lái)展開(kāi):
首先,知乎是如何使用機(jī)器學(xué)習(xí)技術(shù)的,我們so far做了哪些工作,以及計(jì)劃做哪些事情?
第二,展望未來(lái),機(jī)器學(xué)習(xí)技術(shù)給知乎提供的想像空間是什么,能夠幫我們催生什么樣的產(chǎn)品?
首先來(lái)看第一個(gè)問(wèn)題。要說(shuō)明「知乎是如何使用機(jī)器學(xué)習(xí)技術(shù)的」,需要先簡(jiǎn)單描述一下「知乎是什么」。
今年是知乎成立的第6年。6年前知乎剛上線(xiàn)的時(shí)候,是一個(gè)封閉的邀請(qǐng)式社區(qū),在剛上線(xiàn)的一段時(shí)間內(nèi),用戶(hù)量并不大。當(dāng)時(shí)社區(qū)里討論的話(huà)題大部分都集中在互聯(lián)網(wǎng)和創(chuàng)業(yè)領(lǐng)域,是一個(gè)看起來(lái)有些小眾的網(wǎng)站。
那么6年后的今天呢?我們來(lái)看看,知乎上都有什么。
知乎是什么?
大家可以看看左邊的圖,這是知乎上關(guān)注人數(shù)最多的一批內(nèi)容的話(huà)題標(biāo)簽云??梢钥吹?,現(xiàn)在知乎的討論已經(jīng)變得非常多元化,從互聯(lián)網(wǎng)到心理學(xué),從電影到文學(xué),從專(zhuān)業(yè)的天文學(xué)、數(shù)據(jù)分析和人工智能,到貼近生活的旅行、健身、時(shí)尚等話(huà)題,都有人在討論。
從數(shù)量上來(lái)看,截止到目前,知乎上已經(jīng)有1500萬(wàn)個(gè)問(wèn)題,5500萬(wàn)個(gè)回答,還有相當(dāng)數(shù)量的專(zhuān)欄文章,這些內(nèi)容呢,都會(huì)被關(guān)聯(lián)和綁定到25萬(wàn)個(gè)話(huà)題上。所以,到了今天,知乎已經(jīng)是一個(gè)討論面非常廣泛的知識(shí)社交平臺(tái)。
看完了內(nèi)容,我們?cè)賮?lái)看看用戶(hù)的情況。
知乎用戶(hù)6年來(lái)同樣也在飛速增長(zhǎng),并且越來(lái)越多元化。知乎上既有李開(kāi)復(fù)、馬伯庸、張譯、賈揚(yáng)清等一批現(xiàn)實(shí)生活中已經(jīng)是「名人」的用戶(hù);也有以前默默無(wú)聞,但通過(guò)在知乎辛勤耕耘,擁有了一定影響力的優(yōu)質(zhì)內(nèi)容生產(chǎn)者;另外還有像 “窮游錦囊”、“中國(guó)科技博覽”、“中國(guó)印鈔造幣”等等機(jī)構(gòu)類(lèi)用戶(hù)。
截止目前,我們擁有6900萬(wàn)的注冊(cè)用戶(hù),每天有超過(guò)2000萬(wàn)獨(dú)立設(shè)備訪問(wèn)和登錄知乎,每月有上百億的Page View。
上面的數(shù)據(jù),給我們一個(gè)知乎規(guī)模的直觀認(rèn)識(shí)。事實(shí)上,知乎已經(jīng)成為世界上最大的中文知識(shí)社交平臺(tái),并且還在保持高速的增長(zhǎng)。2016年,我們?cè)跊](méi)有花一分錢(qián)做效果推廣的情況下,我們的注冊(cè)用戶(hù)量、DAU等核心指標(biāo)大約翻了一番。
那么,知乎為什么能夠在這樣的體量下還保持高速增長(zhǎng)呢?
我們?cè)?jīng)做過(guò)一些用戶(hù)調(diào)研,希望了解他們?yōu)槭裁聪矚g用知乎。有的人說(shuō)他喜歡來(lái)知乎看熱點(diǎn)事件的評(píng)價(jià),了解同一個(gè)事情的不同角度的觀點(diǎn),相互碰撞;也有人喜歡來(lái)知乎看大家的經(jīng)驗(yàn),幫助自己做消費(fèi)決策:比如裝修怎么做預(yù)算,職場(chǎng)第三年如何提升自己,等等。
有的用戶(hù)則是專(zhuān)門(mén)來(lái)知乎分享自己的知識(shí)。我們有個(gè)用戶(hù)是房產(chǎn)律師,叫徐斌,他常常在知乎上回答購(gòu)房過(guò)程中遇到的法律問(wèn)題,他曾在我們產(chǎn)品知乎Live開(kāi)了一堂課,名字叫「怎樣租房不上當(dāng)」,有8000名聽(tīng)眾購(gòu)票入場(chǎng)向他取經(jīng)。
可以看到,用戶(hù)來(lái)知乎,無(wú)外乎做兩件事,生產(chǎn)內(nèi)容,或者消費(fèi)內(nèi)容。他們有些人是內(nèi)容的生產(chǎn)者,但絕大多數(shù)都是內(nèi)容的消費(fèi)者。
「內(nèi)容生產(chǎn)」和「內(nèi)容消費(fèi)」一起,構(gòu)成了知乎的生態(tài)閉環(huán)。更多更好的內(nèi)容生產(chǎn)成就了知乎作為平臺(tái)的粘性和吸引力,而吸引來(lái)的更多用戶(hù)也催生了更加多樣化的內(nèi)容生產(chǎn)需求。生產(chǎn)內(nèi)容的用戶(hù)也能從這個(gè)過(guò)程中受益,通過(guò)知識(shí)的分享和交流提升自我。
正是因?yàn)闈M(mǎn)足了用戶(hù)的內(nèi)容生產(chǎn)和消費(fèi)的需求,才有了知乎的高速增長(zhǎng),有了知乎今天數(shù)千萬(wàn)的用戶(hù)和內(nèi)容。
所以說(shuō)回來(lái),知乎是什么?知乎其實(shí)就是一個(gè)連接和匹配海量用戶(hù)的知識(shí)網(wǎng)絡(luò),是一個(gè)平臺(tái)。我們的核心目標(biāo)就是讓這個(gè)內(nèi)容生產(chǎn)和消費(fèi)的閉環(huán)順暢地運(yùn)轉(zhuǎn),然后為用戶(hù)提供一個(gè)認(rèn)真、有效的討論環(huán)境。
要實(shí)現(xiàn)這個(gè)目標(biāo),在我們的規(guī)模比較小的時(shí)候,是比較容易的。在社區(qū)規(guī)模比較小的情況下,我們可以通過(guò)一些簡(jiǎn)單的產(chǎn)品策略和運(yùn)營(yíng)策略,保證內(nèi)容生產(chǎn)和分發(fā)的效率,也能夠通過(guò)人工的運(yùn)營(yíng)方式來(lái)維持良好的社區(qū)環(huán)境。比如我們的邀請(qǐng)回答機(jī)制和謝邀的文化。
但是,在社區(qū)規(guī)模達(dá)到今天的狀態(tài)時(shí),我們面臨的運(yùn)營(yíng)壓力也在飛度的增長(zhǎng),產(chǎn)品設(shè)計(jì)也需要更加精細(xì)化。現(xiàn)在的知乎每天都有數(shù)千萬(wàn)用戶(hù)在活躍,產(chǎn)生數(shù)十萬(wàn)的新內(nèi)容。這時(shí)再純粹依靠人力進(jìn)行產(chǎn)品決策和社區(qū)運(yùn)營(yíng),會(huì)面臨效率低下、人力資源難以為繼的困境。
機(jī)器學(xué)習(xí)6大場(chǎng)景
因此,回到第一個(gè)問(wèn)題,知乎正在使用機(jī)器學(xué)習(xí)技術(shù)做哪些事情?我們認(rèn)為,使用機(jī)器學(xué)習(xí)技術(shù),可以更加精細(xì)地對(duì)用戶(hù)和內(nèi)容進(jìn)行建模,促進(jìn)內(nèi)容生產(chǎn)和內(nèi)容分發(fā)的效率。
具體說(shuō)來(lái),我們可以把知乎對(duì)機(jī)器學(xué)習(xí)的應(yīng)用劃分為6大場(chǎng)景,也就是用戶(hù)畫(huà)像、內(nèi)容分析、排序、推薦、商業(yè)化和社區(qū)管理。在過(guò)去一年多的時(shí)間里,我們?cè)谶@6個(gè)場(chǎng)景上都做了一些工作,也有一些工作正在進(jìn)行或者馬上啟動(dòng)。下面,我來(lái)詳細(xì)介紹一下這些工作。
用戶(hù)畫(huà)像
首先是用戶(hù)畫(huà)像。
可以說(shuō),準(zhǔn)確有效的用戶(hù)畫(huà)像是進(jìn)行一切個(gè)性化策略的基礎(chǔ)。我們現(xiàn)在已經(jīng)初步建立了一套用戶(hù)畫(huà)像的體系,并且對(duì)一些重要標(biāo)簽進(jìn)行了挖掘,例如用戶(hù)的活躍度、People Rank,常用登錄地點(diǎn);作為生產(chǎn)者在特定話(huà)題下的權(quán)威度;作為消費(fèi)者對(duì)特定話(huà)題的興趣,等等。
這些用戶(hù)標(biāo)簽被用在了個(gè)性化排序、推薦、問(wèn)題路由等一系列任務(wù)中,取得了不錯(cuò)的效果。接下來(lái),我們還會(huì)對(duì)用戶(hù)的屬性進(jìn)行更深入的挖掘,例如,我們希望對(duì)用戶(hù)進(jìn)行社群分析,并且定位整個(gè)信息傳播網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),也就是所謂的Key Opinion Leader。
我們也希望用戶(hù)的興趣標(biāo)簽變得更加「動(dòng)態(tài)化」和「可預(yù)測(cè)」,例如,如果一個(gè)用戶(hù)最近對(duì)「懷孕期間的健康」這種話(huà)題比較感興趣,那么我們可以推測(cè),用戶(hù)在幾個(gè)月后,可能會(huì)對(duì)「育兒」這個(gè)話(huà)題產(chǎn)生興趣。
我們還希望能通過(guò)用戶(hù)的分享來(lái)重構(gòu)他的經(jīng)歷,也計(jì)劃進(jìn)一步挖掘用戶(hù)的消費(fèi)能力和消費(fèi)意愿,等等。總之,我們期望,在接下來(lái)的一段時(shí)間內(nèi),能夠?qū)τ脩?hù)進(jìn)行全方位的了解和刻畫(huà)。
內(nèi)容分析
說(shuō)完了用戶(hù)畫(huà)像,我們?cè)賮?lái)看看內(nèi)容分析。
知乎上每天都會(huì)產(chǎn)生大量的新內(nèi)容,這些內(nèi)容需要在第一時(shí)間被分析和處理,打上各種各樣的標(biāo)簽。
因此,我們構(gòu)建了一條內(nèi)容分析的流水線(xiàn),保證站內(nèi)每條內(nèi)容發(fā)生變化時(shí),都會(huì)進(jìn)入這條流水線(xiàn)進(jìn)行自動(dòng)分析,然后第一時(shí)間把分析結(jié)果同步給搜索、推薦、社區(qū)等各個(gè)業(yè)務(wù)場(chǎng)景,對(duì)每條內(nèi)容而言,這個(gè)過(guò)程大概在10秒左右,這種實(shí)時(shí)性能夠滿(mǎn)足我們的業(yè)務(wù)要求。
目前,在這條流水線(xiàn)上,我們已經(jīng)針對(duì)文本、圖像、音頻等數(shù)據(jù)進(jìn)行了一些基礎(chǔ)分析,例如文本分類(lèi)、命名實(shí)體識(shí)別,圖像色情、暴恐內(nèi)容檢測(cè),音頻降噪等等。
我們也會(huì)逐步往這條流水線(xiàn)上添加更多的組件,例如最近一個(gè)重要的工作,是從不同維度刻畫(huà)內(nèi)容質(zhì)量,這些維度包括內(nèi)容的時(shí)效性、專(zhuān)業(yè)性、嚴(yán)肅性、準(zhǔn)確性,等等。
我們還計(jì)劃對(duì)內(nèi)容進(jìn)行語(yǔ)義分析,例如自動(dòng)摘要,讓用戶(hù)在 Feed 流這樣信息密集場(chǎng)景中,不用點(diǎn)開(kāi)卡片就能初步判定內(nèi)容的大概情況,從而提升篩選內(nèi)容的效率。
排序
用戶(hù)畫(huà)像和內(nèi)容分析是基礎(chǔ)工作,很大程度上來(lái)講,不是用戶(hù)直接可見(jiàn)的。下面我們來(lái)介紹更上層的業(yè)務(wù)場(chǎng)景。
首先說(shuō)一下Ranking,Ranking是內(nèi)容分發(fā)場(chǎng)景中非常重要的一環(huán),好的 Ranking策略可以讓合適的內(nèi)容第一時(shí)間內(nèi)觸達(dá)用戶(hù),降低用戶(hù)篩選的成本,提升分發(fā)效率。目前,我們我們主要使用Learning to Rank技術(shù)來(lái)改進(jìn)各種業(yè)務(wù)場(chǎng)景下的排序,包括:
首頁(yè)信息流的排序:首頁(yè)是用戶(hù)進(jìn)入知乎的第一入口,首頁(yè)的內(nèi)容質(zhì)量會(huì)影響用戶(hù)對(duì)知乎調(diào)性的認(rèn)知,以及用戶(hù)粘性、內(nèi)容消費(fèi)量、用戶(hù)停留時(shí)長(zhǎng)等一系列關(guān)鍵指標(biāo)的變化。
搜索結(jié)果排序:這里需要解決好的,主要是不同分類(lèi)的內(nèi)容如何混排的問(wèn)題;
問(wèn)題下的答案的排序:知乎上比較熱門(mén)的問(wèn)題,都會(huì)有很多的回答,有的問(wèn)題下甚至?xí)袔浊€(gè)答案,如何對(duì)這些答案進(jìn)行排序,也是一個(gè)很重要的課題。除了考慮用戶(hù)投票的反饋特征之外,還需要考慮各種內(nèi)容相關(guān)特征,例如內(nèi)容格式、內(nèi)容質(zhì)量、答案和提問(wèn)的相關(guān)性,等等。同時(shí),我們還會(huì)考慮作者和投票的用戶(hù)在這個(gè)問(wèn)題領(lǐng)域的專(zhuān)業(yè)性,比如一個(gè)機(jī)器學(xué)習(xí)領(lǐng)域的從業(yè)者在機(jī)器學(xué)習(xí)問(wèn)題的回答權(quán)重就會(huì)比非專(zhuān)業(yè)的更高,確?!负么鸢浮共粫?huì)埋沒(méi)。
Learning to Rank技術(shù)在這些場(chǎng)景下的應(yīng)用帶來(lái)了很好的收益。舉個(gè)例子,原來(lái)我們的首頁(yè)排序算法采取的是類(lèi)似EdgeRank的排序策略,在經(jīng)過(guò)大概兩年的優(yōu)化后,各種指標(biāo)都只能保持平穩(wěn),很難有大的提升了。
但我們使用了Learning to Rank技術(shù)來(lái)進(jìn)行排序優(yōu)化,三個(gè)月內(nèi),點(diǎn)擊率上升了 40%,用戶(hù)在線(xiàn)時(shí)長(zhǎng)上升了 20%,留存也有小幅的提升。
當(dāng)然,我們覺(jué)得,僅僅是這樣,還是不夠的。目前我們也在探索Learning to Rank技術(shù)的更深入優(yōu)化。一些可能的方向:
一是多目標(biāo)的業(yè)務(wù)場(chǎng)景下Ranking的帕累托優(yōu)化。
大家知道,我們的很多業(yè)務(wù)場(chǎng)景都是需要進(jìn)行多目標(biāo)優(yōu)化的,僅僅看「點(diǎn)擊率」或者「相關(guān)性」等指標(biāo),很容易陷入到指標(biāo)上升,但實(shí)際收益下降的怪圈中去。
仍然以Feed Ranking舉例,在我們使用Pointwise/Pairwise的Learning to Rank技術(shù)進(jìn)行了幾輪改進(jìn)之后,我們就陷入到了一種困境中:新上一個(gè)模型,往往是一個(gè)指標(biāo)上去了,其他的指標(biāo)下降了。
例如,在著重優(yōu)化點(diǎn)擊率之后,新模型的點(diǎn)擊率有所上升,但同時(shí)放出了大量的低質(zhì)量?jī)?nèi)容,比如「抖機(jī)靈」、「吵架糾紛」、「標(biāo)題黨」等內(nèi)容,這些內(nèi)容非常抓人眼球,吸引了大量點(diǎn)擊,但其實(shí)用戶(hù)價(jià)值不大,對(duì)知乎的產(chǎn)品形象也會(huì)帶來(lái)負(fù)面影響。
在這種情況下,我們需要把機(jī)器學(xué)習(xí)中的帕累托優(yōu)化等思想引入到Learning to Rank的場(chǎng)景中來(lái),促進(jìn)各種指標(biāo)的協(xié)同提升。
二是用好一些實(shí)時(shí)特征,讓模型除了能反映用戶(hù)的穩(wěn)定偏好之外,還能考慮到當(dāng)前的實(shí)時(shí)狀態(tài),及時(shí)做出調(diào)整。
例如,如果一個(gè)用戶(hù)是巴薩的球迷,很喜歡看站上各種巴薩的討論,但昨天巴薩輸球了,所以很不高興,不想看到任何相關(guān)的內(nèi)容,我們就應(yīng)該要從他的實(shí)時(shí)行為里面盡快看出端倪。
推薦
下一個(gè)業(yè)務(wù)場(chǎng)景是推薦。
知乎上的推薦主要是兩種,一種是針對(duì)內(nèi)容推薦相關(guān)內(nèi)容,一種是針對(duì)用戶(hù)推薦可能感興趣的內(nèi)容。
我們之前陸陸續(xù)續(xù)做了一些推薦的工作,今年年初,我們啟動(dòng)了統(tǒng)一推薦引擎計(jì)劃,基于Prediction IO和Elastic Search等開(kāi)源系統(tǒng),構(gòu)建了知乎的統(tǒng)一推薦工程框架,接入到一系列業(yè)務(wù)場(chǎng)景中。
推薦接下來(lái)要做的事情主要包括兩個(gè):
一是實(shí)現(xiàn)一個(gè)完備的推薦算法庫(kù),包括Explore & Exploit算法,協(xié)同過(guò)濾,內(nèi)容關(guān)聯(lián)性推薦,Deep & Wide算法等,提升業(yè)務(wù)接入各種算法實(shí)驗(yàn)的效率;
二是把推薦跟排序結(jié)合起來(lái),在首頁(yè)或者搜索這樣的入口級(jí)場(chǎng)景,加入一些推薦結(jié)果,和原來(lái)的內(nèi)容進(jìn)行混合排序,幫助用戶(hù)快速地發(fā)現(xiàn)其他優(yōu)質(zhì)內(nèi)容,為用戶(hù)進(jìn)行興趣探索和拓展,發(fā)現(xiàn)更大的世界。
商業(yè)化
Ranking和推薦都是比較明確的用戶(hù)場(chǎng)景,主要目的是實(shí)現(xiàn)用戶(hù)和信息的高效匹配。相對(duì)來(lái)說(shuō),商業(yè)化這個(gè)場(chǎng)景會(huì)更加復(fù)雜一點(diǎn)。
大家知道商業(yè)化產(chǎn)品和用戶(hù)產(chǎn)品的不同,在于商業(yè)化中引入了「平臺(tái)」和「廣告主」這兩個(gè)角色,需要在各方的利益之間尋求一種平衡。
知乎的商業(yè)化探索是從去年開(kāi)始的,截止目前,我們已經(jīng)實(shí)現(xiàn)了一個(gè)商業(yè)系統(tǒng)的雛形,實(shí)現(xiàn)了流量預(yù)估、廣告定向投放、CTR 預(yù)估、智能化的 Pacing 等一系列功能。
而隨著今年業(yè)務(wù)的規(guī)模的擴(kuò)大,我們也需要更多有效的工具,幫助達(dá)到商業(yè)收入和用戶(hù)體驗(yàn)之間的平衡,也為合作伙伴帶去收益。接下來(lái),在商業(yè)化方向,我們需要機(jī)器學(xué)習(xí)技術(shù)武裝的地方包括:
智能的廣告平臺(tái)。
支持分析用戶(hù)對(duì)各種品牌的情感傾向,實(shí)現(xiàn)更智能的廣告售賣(mài);以及幫助廣告主設(shè)定各種投放計(jì)劃和定向目標(biāo),等等。
廣告質(zhì)量的預(yù)判和審核工具。
作為一個(gè)非常重視用戶(hù)體驗(yàn)的公司,我們進(jìn)行商業(yè)化探索的時(shí)候也是非常謹(jǐn)慎的,不僅要保證用戶(hù)盡量不被廣告打擾,還希望廣告也能給用戶(hù)帶來(lái)價(jià)值。
過(guò)去一年,我們的商業(yè)運(yùn)營(yíng)團(tuán)隊(duì)在保證廣告物料質(zhì)量方面下了很大的功夫,所以用戶(hù)普遍對(duì)知乎的廣告是持接受和理解態(tài)度,廣告的轉(zhuǎn)化效果也得到了很好的保證。
但是在廣告的規(guī)模化投放開(kāi)始后,單純靠人力是不能完成這樣的質(zhì)量保證的,因此我們需要一些機(jī)制,例如廣告物料的質(zhì)量判定,讓機(jī)器輔助人力來(lái)做這樣的工作。
社區(qū)管理
說(shuō)完商業(yè)化,我們?cè)賮?lái)說(shuō)一下最后一塊工作,社區(qū)管理。一個(gè)良好運(yùn)轉(zhuǎn)的社區(qū)需要良好的社區(qū)討論氛圍。我們使用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行了大量的工作,來(lái)幫助社區(qū)運(yùn)營(yíng)的同學(xué)高效地進(jìn)行社區(qū)氛圍的維護(hù)。
由于知乎上數(shù)據(jù)的量級(jí)非常大,這些檢測(cè)和處理必須做到足夠的自動(dòng)化和高效率。它們主要包括:
Spammer 用戶(hù)的識(shí)別:例如識(shí)別爬蟲(chóng)用戶(hù)、刷粉用戶(hù)、營(yíng)銷(xiāo)用戶(hù)等;
各種低質(zhì)量?jī)?nèi)容和違規(guī)內(nèi)容的識(shí)別和處理,例如前面提到的色情圖片識(shí)別,文本中的語(yǔ)言暴力識(shí)別,等等。
伴隨著知乎的高速增長(zhǎng),原來(lái)靠社區(qū)公約、人工運(yùn)營(yíng)、用戶(hù)舉報(bào)等建立起來(lái)的社區(qū)管理機(jī)制也會(huì)面臨巨大的挑戰(zhàn)。把知乎比作城市的話(huà),社區(qū)管理是一個(gè)基礎(chǔ)建設(shè)的工作,類(lèi)似于修建道路、疏通下水道。
一個(gè)城市的基礎(chǔ)建設(shè)做好了,才能吸引更多的人入駐;但一個(gè)城市的規(guī)模擴(kuò)大了,這些基建工作勢(shì)必也變得更加繁重。
接下來(lái),我們希望機(jī)器學(xué)習(xí)能夠幫助社區(qū)管理的同學(xué)在這些方面提升效率:
一是更深入地對(duì)各種低質(zhì)量的內(nèi)容進(jìn)行檢測(cè)和自動(dòng)處理。例如營(yíng)銷(xiāo)軟文,或者網(wǎng)絡(luò)謠言,都需要盡可能快地檢測(cè)出來(lái),降低傳播量,讓這些內(nèi)容對(duì)社區(qū)的損壞降到最低。
二是希望通過(guò)一些自動(dòng)客服機(jī)器人,提高對(duì)用戶(hù)舉報(bào)、用戶(hù)反饋等事務(wù)的處理效率,這項(xiàng)技術(shù)當(dāng)前在一些電商網(wǎng)站中已經(jīng)得到了很好的應(yīng)用,我們也期望能夠通過(guò)這項(xiàng)技術(shù),來(lái)減輕運(yùn)營(yíng)人員的工作量,提升用戶(hù)的滿(mǎn)意度。
知乎機(jī)器學(xué)習(xí)的未來(lái)
上面簡(jiǎn)單介紹了知乎當(dāng)前對(duì)機(jī)器學(xué)習(xí)的使用情況,主要在 6 個(gè)場(chǎng)景中,包括用戶(hù)畫(huà)像、內(nèi)容分析、排序、推薦、商業(yè)化和社區(qū)管理。歸根結(jié)底一句話(huà),就是將機(jī)器學(xué)習(xí)技術(shù)用于內(nèi)容的生產(chǎn)和分發(fā)。
但我們相信,隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,它不僅僅是做到這個(gè)程度。在可見(jiàn)的未來(lái),知乎更希望機(jī)器學(xué)習(xí)技術(shù)幫我們做到什么事情呢?用一句話(huà)來(lái)描述,就是:希望讓知乎不只是「分發(fā)」內(nèi)容,還能更深入地「理解」內(nèi)容。
大家可以看到,在「內(nèi)容生產(chǎn)」和「內(nèi)容消費(fèi)」的閉環(huán)中,知乎作為平臺(tái),其實(shí)更多是在發(fā)揮「信息路由」的作用,促進(jìn)內(nèi)容的生產(chǎn),然后投遞到不同的人手中。
如果說(shuō)這些內(nèi)容是寶貴的礦石的話(huà),那么知乎的角色,更類(lèi)似于一個(gè)礦產(chǎn)的集散中心,而這些礦產(chǎn)能夠發(fā)掘出多少價(jià)值,則依賴(lài)于用戶(hù)自己。我們希望,在未來(lái)知乎能夠?qū)@些礦產(chǎn)進(jìn)行一定程度的加工,來(lái)進(jìn)一步提升用戶(hù)獲取知識(shí)的效率。
舉個(gè)例子,如果用戶(hù)希望知道,大家對(duì)某個(gè)新聞事件持有什么觀點(diǎn),現(xiàn)在需要一條一條地閱讀知乎上相關(guān)的各種內(nèi)容,再自己去總結(jié)和歸結(jié)每個(gè)人的主要思想,這是成本很高的事情。
反過(guò)來(lái),如果知乎可以提供這樣的服務(wù),讓用戶(hù)更容易看到全局的輿論,多少用戶(hù)從經(jīng)濟(jì)的角度分析問(wèn)題,又有多少用戶(hù)從政治博弈的層面解答問(wèn)題,等等。如果真的需要看某個(gè)具體用戶(hù)的論證過(guò)程,還可以按圖索驥地去查看,那將是非常有價(jià)值的。
這個(gè)工作要涉及到兩個(gè)方面:一方面是要從用戶(hù)生產(chǎn)的非結(jié)構(gòu)化內(nèi)容中抽取、組織各種知識(shí)和觀點(diǎn),變成知乎知識(shí)庫(kù)的一部分;另一方面,要能把知識(shí)庫(kù)的內(nèi)容轉(zhuǎn)變成用戶(hù)友好的產(chǎn)品。
非結(jié)構(gòu)化內(nèi)容中的知識(shí)抽取
先說(shuō)非結(jié)構(gòu)化內(nèi)容中的知識(shí)抽取。
我們期望能從知乎上的海量?jī)?nèi)容中,挖掘出各種知識(shí)和見(jiàn)解,存儲(chǔ)起來(lái),能夠被索引和利用。目前業(yè)界有一些從非結(jié)構(gòu)化數(shù)據(jù)中抽取結(jié)構(gòu)化知識(shí)的研究,例如知識(shí)圖譜技術(shù)。
那么對(duì)知乎上的內(nèi)容進(jìn)行信息抽取困難在哪兒呢?主要是,知乎的內(nèi)容形式比較復(fù)雜,除了可以結(jié)構(gòu)化的屬性描述和關(guān)系描述之外,還包括其它形式多樣的知識(shí)和見(jiàn)解,例如對(duì)科學(xué)定理的論述、針對(duì)某些事件的評(píng)價(jià),等等。
知乎上的內(nèi)容也不僅僅局限在某些特定的領(lǐng)域下,而是一個(gè)開(kāi)放的、不斷擴(kuò)張的領(lǐng)域集合,用戶(hù)會(huì)發(fā)起各種各樣的討論,也會(huì)從各種不同的角度來(lái)看待同一個(gè)問(wèn)題。
當(dāng)然,相對(duì)于其他的公司,知乎在知識(shí)和見(jiàn)解的結(jié)構(gòu)化方面也有優(yōu)勢(shì)。因?yàn)橹跎系膬?nèi)容質(zhì)量相對(duì)較高,同時(shí)知乎的用戶(hù)通過(guò)各種互動(dòng)行為,和內(nèi)容構(gòu)成了一張信息量豐富的網(wǎng)絡(luò)。我們的數(shù)據(jù)具有極高的信噪比,這也為信息抽取工作提供了很大的便利。
更加智能、高效的用戶(hù)交互接口
假設(shè)我們已經(jīng)神奇地完成了上一個(gè)步驟,接下來(lái)的工作就是,如何將這些信息更高效地提供給用戶(hù)。我們同樣期待機(jī)器學(xué)習(xí)技術(shù)能夠幫助我們構(gòu)建一個(gè)更加智能、高效的用戶(hù)交互接口。
一個(gè)設(shè)想是,智能問(wèn)答產(chǎn)品,使用自然語(yǔ)言生成手段,以一種更加自然、易于理解的方式,將知識(shí)庫(kù)中的信息提供給用戶(hù)。
更進(jìn)一步,我們是不是可以讓「知乎」成為一個(gè)聰明的大腦,和用戶(hù)進(jìn)行更自然、形式更加豐富的相互交流呢?這也是業(yè)內(nèi)的一個(gè)比較前沿的研究方向,像 MSRA 和 Google 研究院也在做類(lèi)似的工作,我們也希望知乎能夠在這方面能有自己的積累。
本文轉(zhuǎn)載自量子位。
2、芥末堆不接受通過(guò)公關(guān)費(fèi)、車(chē)馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請(qǐng)您 填寫(xiě)信息告訴我們。