*來源:量子位(ID:QbitAI),作者賴可、乾明、十三、發(fā)自、凹非寺
人工智能,往往從人類思維方式中獲取靈感。
但現(xiàn)在反過來了!
人工智能的進(jìn)步,已經(jīng)能夠?yàn)榻颐卮竽X如何學(xué)習(xí)提供啟發(fā)。
這是來自DeepMind的最新研究,剛登上Nature,研究證明:
分布式強(qiáng)化學(xué)習(xí),也就是AlphaGo的頂級版Alpha Zero和AlphaStar背后的核心技術(shù),為大腦中的獎(jiǎng)賞通路如何工作提供了新解釋。
如此結(jié)論,也讓DeepMind創(chuàng)始人哈薩比斯非常激動(dòng),發(fā)表推文表示:
我們在機(jī)器學(xué)習(xí)方面的研究,能夠重新認(rèn)識大腦的工作機(jī)制,這是非常令人興奮的!
他當(dāng)然有理由興奮。
從長遠(yuǎn)來看,這也證明了DeepMind提出的算法與大腦運(yùn)作邏輯相似,也就意味著能夠更好地拓展到解決復(fù)雜的現(xiàn)實(shí)世界問題上。
而且一直以來,哈薩比斯的目標(biāo)就是打造通用人工智能。
Alpha系列背后利器:分布式強(qiáng)化學(xué)習(xí)
強(qiáng)化學(xué)習(xí),就是讓智能體在一個(gè)未知的環(huán)境中,采取一些行動(dòng),然后收獲回報(bào),并進(jìn)入下一個(gè)狀態(tài)。
而時(shí)間差分學(xué)習(xí)(temporal difference learning,TD)算法,可以說是強(qiáng)化學(xué)習(xí)的中心。
它是一種學(xué)習(xí)如何根據(jù)給定狀態(tài)的未來值,來預(yù)測價(jià)值的方法。
算法會(huì)將新的預(yù)測和預(yù)期進(jìn)行比較。
如果發(fā)現(xiàn)兩者不同,這個(gè)“時(shí)間差分”就會(huì)把舊的預(yù)測調(diào)整到新的預(yù)測中,讓結(jié)果變得更加準(zhǔn)確。
△當(dāng)未來不確定時(shí),未來的回報(bào)可以表示為一種概率分布。有些可能是好的結(jié)果(藍(lán)綠色),有些結(jié)果可能是不好的(紅色)。
一個(gè)特定的行為所帶來的未來獎(jiǎng)勵(lì)數(shù)量,通常是未知且隨機(jī)。在這種情況下,標(biāo)準(zhǔn)的TD算法學(xué)習(xí)去預(yù)測的未來回報(bào)是平均的。
而分布式強(qiáng)化學(xué)習(xí)則是更復(fù)雜的預(yù)測方式,會(huì)預(yù)測所有未來獎(jiǎng)勵(lì)的概率分布。
那人類大腦的多巴胺獎(jiǎng)賞機(jī)制是怎么樣的呢?
然后研究的雛形就在DeepMind研究人員的腦海中生根了。
不研究不知道,一研究真的“嚇一跳”。
過去,人們認(rèn)為多巴胺神經(jīng)元的反應(yīng),應(yīng)該都是一樣的。
有點(diǎn)像在一個(gè)詩唱班,每個(gè)人唱的都是一模一樣的音符。
但研究小組發(fā)現(xiàn),單個(gè)多巴胺的神經(jīng)元似乎有所不同——所呈現(xiàn)的積極性是多樣的。
于是研究人員訓(xùn)練小鼠執(zhí)行一項(xiàng)任務(wù),并給予它們大小各異且不可預(yù)測的獎(jiǎng)勵(lì)。
他們從小鼠腹側(cè)被蓋區(qū)域(Ventral tegmental area,控制多巴胺向邊緣和皮質(zhì)區(qū)域釋放的中腦結(jié)構(gòu))中發(fā)現(xiàn)了“分布式強(qiáng)化學(xué)習(xí)”的證據(jù)。
這些證據(jù)表明,獎(jiǎng)勵(lì)預(yù)測是同時(shí)并行地由多個(gè)未來結(jié)果表示的。
這和分布式機(jī)器學(xué)習(xí)的原理也太像了吧?
解釋大腦多巴胺系統(tǒng)
實(shí)驗(yàn)運(yùn)用了光識別技術(shù)來記錄小鼠大腦中腹側(cè)被蓋區(qū)中單個(gè)多巴胺神經(jīng)元的反應(yīng)。
腹側(cè)被蓋區(qū)富含多巴胺與5-羥色胺神經(jīng),是兩條主要的多巴胺神經(jīng)通道的一部分
基于強(qiáng)化學(xué)習(xí)理論,研究假設(shè)大腦存在多巴胺的獎(jiǎng)賞預(yù)測誤差(RPE)。
一個(gè)信號會(huì)引起一個(gè)獎(jiǎng)賞預(yù)測,當(dāng)獎(jiǎng)賞預(yù)測低于分布的均值時(shí),會(huì)引起負(fù)的RPE,而較大的獎(jiǎng)勵(lì)會(huì)引起正的RPE。
在一般強(qiáng)化學(xué)習(xí)中,獲得的獎(jiǎng)勵(lì)幅度低于平均值分布將引起消極(負(fù))的RPE,而較大的幅度將引出積極(正)的RPE(如上圖a左所示)。
在分布式強(qiáng)化學(xué)習(xí)中,每個(gè)通道都攜帶不同的RPE價(jià)值預(yù)測,不同通道的積極程度不同。
這些值的預(yù)測反過來又為不同的RPE信號提供了參考點(diǎn)。在最后的結(jié)果上,一個(gè)單一的獎(jiǎng)勵(lì)結(jié)果可以同時(shí)激發(fā)積極(正)的RPE和消極的RPE(如上圖a右所示)。
記錄結(jié)果顯示,小鼠大腦的多巴胺神經(jīng)元反轉(zhuǎn)點(diǎn)根據(jù)積極程度的不同而不同。符合分布式強(qiáng)化學(xué)習(xí)的特點(diǎn)(如上圖b所示)。
為了驗(yàn)證神經(jīng)元反應(yīng)多樣性不是隨機(jī)的,研究者做了進(jìn)一步驗(yàn)證。
將隨機(jī)地將數(shù)據(jù)分成兩半,并在每一半中獨(dú)立地估計(jì)反轉(zhuǎn)點(diǎn)。結(jié)果發(fā)現(xiàn)其中一半的反轉(zhuǎn)點(diǎn)與另一半的反轉(zhuǎn)點(diǎn)是相關(guān)的。
為了進(jìn)一步了神經(jīng)元對獎(jiǎng)賞預(yù)測的處理方式。研究者給神經(jīng)元進(jìn)行了三種不同的信號刺激。
分別是10%、50%、90%的獎(jiǎng)賞概率,并同時(shí)記錄了四個(gè)多巴胺神經(jīng)元的反應(yīng)。
每條軌跡都是對三種線索之一的平均反應(yīng),零時(shí)是開始時(shí)間。
結(jié)果顯示,一些細(xì)胞將50%的線索編碼為90%的線索,而另一些細(xì)胞同時(shí)將10%的線索編碼為10%的線索。
最后 ,研究者還進(jìn)行了驗(yàn)證,試圖從多巴胺細(xì)胞的放電率來解碼獎(jiǎng)賞分布。
通過進(jìn)行推理,成功地重建了一個(gè)與老鼠參與的任務(wù)中獎(jiǎng)勵(lì)的實(shí)際分配相匹配的分配。
初步驗(yàn)證了小鼠的大腦分布式強(qiáng)化學(xué)習(xí)機(jī)制,給研究員帶來了更多的思考:
是什么電路或細(xì)胞級機(jī)制導(dǎo)致了不對稱的多樣性?
不同的RPE通道是如何與相應(yīng)的獎(jiǎng)勵(lì)預(yù)測在解剖學(xué)上結(jié)合?
這些大腦的謎團(tuán)都有待于進(jìn)一步了解。
而且這一研究結(jié)果也驗(yàn)證了之前多巴胺分布對成癮和抑郁等精神障礙機(jī)制影響的假說。
有理論認(rèn)為,抑郁癥和雙相情感障礙都可能涉及關(guān)于未來的負(fù)面情緒。
這些情緒與未來的負(fù)面預(yù)測偏差有關(guān),偏差則可能來自于RPE coding28、29中的不對稱。
但更多的意義,則是對當(dāng)前機(jī)器學(xué)習(xí)技術(shù)發(fā)展的激勵(lì)。
DeepMind 神經(jīng)科學(xué)研究負(fù)責(zé)人Matt Botvinick說:“當(dāng)我們能夠證明大腦使用的算法,與我們在人工智能工作中使用的算法類似時(shí),這將增強(qiáng)我們的信心?!?/p>
跨學(xué)科研究團(tuán)隊(duì)的成果
這篇論文中一共有3位共同一作,也是跨學(xué)科團(tuán)隊(duì)的研究成果。
排在第一位的是Will Dabney,DeepMind的高級研究科學(xué)家。
△Will Dabney
本科畢業(yè)于美國奧克拉荷馬大學(xué),在馬薩諸塞大學(xué)阿默斯特分校獲得了博士學(xué)位。
在加入DeepMind之前,曾在亞馬遜的Echo團(tuán)隊(duì)工作過。
2016年加入DeepMind。
第二位共同一作是Zeb Kurth-Nelson,他是DeepMind的研究科學(xué)家。
△Zeb Kurth-Nelson
博士畢業(yè)于明尼蘇達(dá)大學(xué),2016年加入DeepMind。
第三位共同一作是Naoshige Uchida,來自于哈佛大學(xué),是分子和細(xì)胞生物學(xué)教授。
△Naoshige Uchida
此外,DeepMind創(chuàng)始人哈薩比斯也在作者之列。
他一直都希望,能夠通過人工智能的突破也將幫助我們掌握基礎(chǔ)的科學(xué)問題。
而現(xiàn)在的研究發(fā)現(xiàn),他們致力的研究方向,竟然能夠給人們研究大腦帶來啟發(fā),無疑堅(jiān)定了他們的研究信心。
One More Thing
就在這篇論文登上Nature的同時(shí),DeepMind還有另外一篇研究出現(xiàn)了同一期刊上。
它就是DeepMind在2018年12月問世的AlphaFold,一個(gè)用人工智能加速科學(xué)發(fā)現(xiàn)的系統(tǒng)。
僅僅基于蛋白質(zhì)的基因序列,就能預(yù)測蛋白質(zhì)的3D結(jié)構(gòu),而且結(jié)果比以前的任何模型都要精確。
DeepMind稱,這是自己在科學(xué)發(fā)現(xiàn)領(lǐng)域的第一個(gè)重要里程碑,在生物學(xué)的核心挑戰(zhàn)之一上取得了重大進(jìn)展。
截止到現(xiàn)在,DeepMind提出Alpha系列,從AlphaGo,到AlphaZero,再到AlphaStar,以及現(xiàn)在的AlphaFold,一門4子,全上了Nature。
唉…頂級研究機(jī)構(gòu)的快樂,就是這么樸實(shí)無華,且枯燥。
傳送門
https://www.nature.com/articles/s41586-019-1924-6
本文轉(zhuǎn)載自微信公眾號“量子位”,原標(biāo)題《人類對大腦多巴胺機(jī)制理解錯(cuò)了!頂級版AlphaGo背后技術(shù)啟發(fā)腦科學(xué),DeepMind最新成果登上Nature》。文章為作者獨(dú)立觀點(diǎn),不代表芥末堆立場,轉(zhuǎn)載請聯(lián)系原作者。
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章,只呈現(xiàn)有價(jià)值的內(nèi)容給讀者;
3、如果你也從事教育,并希望被芥末堆報(bào)道,請您 填寫信息告訴我們。