亚洲精品tv久久久久久久久j,亚洲精品国产一级毛片,国产超碰人人做人人爽Av

*來源：量子位（ID：QbitAI），作者賴可、乾明、十三、發(fā)自、凹非寺

人工智能，往往從人類思維方式中獲取靈感。

但現(xiàn)在反過來了！

人工智能的進(jìn)步，已經(jīng)能夠?yàn)榻颐卮竽X如何學(xué)習(xí)提供啟發(fā)。

這是來自DeepMind的最新研究，剛登上Nature，研究證明：

分布式強(qiáng)化學(xué)習(xí)，也就是AlphaGo的頂級版Alpha Zero和AlphaStar背后的核心技術(shù)，為大腦中的獎(jiǎng)賞通路如何工作提供了新解釋。

如此結(jié)論，也讓DeepMind創(chuàng)始人哈薩比斯非常激動(dòng)，發(fā)表推文表示：

我們在機(jī)器學(xué)習(xí)方面的研究，能夠重新認(rèn)識大腦的工作機(jī)制，這是非常令人興奮的！

他當(dāng)然有理由興奮。

從長遠(yuǎn)來看，這也證明了DeepMind提出的算法與大腦運(yùn)作邏輯相似，也就意味著能夠更好地拓展到解決復(fù)雜的現(xiàn)實(shí)世界問題上。

而且一直以來，哈薩比斯的目標(biāo)就是打造通用人工智能。

Alpha系列背后利器：分布式強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)，就是讓智能體在一個(gè)未知的環(huán)境中，采取一些行動(dòng)，然后收獲回報(bào)，并進(jìn)入下一個(gè)狀態(tài)。

而時(shí)間差分學(xué)習(xí)(temporal difference learning，TD)算法，可以說是強(qiáng)化學(xué)習(xí)的中心。

它是一種學(xué)習(xí)如何根據(jù)給定狀態(tài)的未來值，來預(yù)測價(jià)值的方法。

算法會(huì)將新的預(yù)測和預(yù)期進(jìn)行比較。

如果發(fā)現(xiàn)兩者不同，這個(gè)“時(shí)間差分”就會(huì)把舊的預(yù)測調(diào)整到新的預(yù)測中，讓結(jié)果變得更加準(zhǔn)確。

△當(dāng)未來不確定時(shí)，未來的回報(bào)可以表示為一種概率分布。有些可能是好的結(jié)果(藍(lán)綠色)，有些結(jié)果可能是不好的(紅色)。

一個(gè)特定的行為所帶來的未來獎(jiǎng)勵(lì)數(shù)量，通常是未知且隨機(jī)。在這種情況下，標(biāo)準(zhǔn)的TD算法學(xué)習(xí)去預(yù)測的未來回報(bào)是平均的。

而分布式強(qiáng)化學(xué)習(xí)則是更復(fù)雜的預(yù)測方式，會(huì)預(yù)測所有未來獎(jiǎng)勵(lì)的概率分布。

那人類大腦的多巴胺獎(jiǎng)賞機(jī)制是怎么樣的呢？

然后研究的雛形就在DeepMind研究人員的腦海中生根了。

不研究不知道，一研究真的“嚇一跳”。

過去，人們認(rèn)為多巴胺神經(jīng)元的反應(yīng)，應(yīng)該都是一樣的。

有點(diǎn)像在一個(gè)詩唱班，每個(gè)人唱的都是一模一樣的音符。

但研究小組發(fā)現(xiàn)，單個(gè)多巴胺的神經(jīng)元似乎有所不同——所呈現(xiàn)的積極性是多樣的。

于是研究人員訓(xùn)練小鼠執(zhí)行一項(xiàng)任務(wù)，并給予它們大小各異且不可預(yù)測的獎(jiǎng)勵(lì)。

他們從小鼠腹側(cè)被蓋區(qū)域(Ventral tegmental area，控制多巴胺向邊緣和皮質(zhì)區(qū)域釋放的中腦結(jié)構(gòu))中發(fā)現(xiàn)了“分布式強(qiáng)化學(xué)習(xí)”的證據(jù)。

這些證據(jù)表明，獎(jiǎng)勵(lì)預(yù)測是同時(shí)并行地由多個(gè)未來結(jié)果表示的。

這和分布式機(jī)器學(xué)習(xí)的原理也太像了吧？

解釋大腦多巴胺系統(tǒng)

實(shí)驗(yàn)運(yùn)用了光識別技術(shù)來記錄小鼠大腦中腹側(cè)被蓋區(qū)中單個(gè)多巴胺神經(jīng)元的反應(yīng)。

腹側(cè)被蓋區(qū)富含多巴胺與5-羥色胺神經(jīng)，是兩條主要的多巴胺神經(jīng)通道的一部分

基于強(qiáng)化學(xué)習(xí)理論，研究假設(shè)大腦存在多巴胺的獎(jiǎng)賞預(yù)測誤差(RPE)。

一個(gè)信號會(huì)引起一個(gè)獎(jiǎng)賞預(yù)測，當(dāng)獎(jiǎng)賞預(yù)測低于分布的均值時(shí)，會(huì)引起負(fù)的RPE，而較大的獎(jiǎng)勵(lì)會(huì)引起正的RPE。

在一般強(qiáng)化學(xué)習(xí)中，獲得的獎(jiǎng)勵(lì)幅度低于平均值分布將引起消極（負(fù)）的RPE，而較大的幅度將引出積極（正）的RPE（如上圖a左所示）。

在分布式強(qiáng)化學(xué)習(xí)中，每個(gè)通道都攜帶不同的RPE價(jià)值預(yù)測，不同通道的積極程度不同。

這些值的預(yù)測反過來又為不同的RPE信號提供了參考點(diǎn)。在最后的結(jié)果上，一個(gè)單一的獎(jiǎng)勵(lì)結(jié)果可以同時(shí)激發(fā)積極（正）的RPE和消極的RPE（如上圖a右所示）。

記錄結(jié)果顯示，小鼠大腦的多巴胺神經(jīng)元反轉(zhuǎn)點(diǎn)根據(jù)積極程度的不同而不同。符合分布式強(qiáng)化學(xué)習(xí)的特點(diǎn)（如上圖b所示）。

為了驗(yàn)證神經(jīng)元反應(yīng)多樣性不是隨機(jī)的，研究者做了進(jìn)一步驗(yàn)證。

將隨機(jī)地將數(shù)據(jù)分成兩半，并在每一半中獨(dú)立地估計(jì)反轉(zhuǎn)點(diǎn)。結(jié)果發(fā)現(xiàn)其中一半的反轉(zhuǎn)點(diǎn)與另一半的反轉(zhuǎn)點(diǎn)是相關(guān)的。

為了進(jìn)一步了神經(jīng)元對獎(jiǎng)賞預(yù)測的處理方式。研究者給神經(jīng)元進(jìn)行了三種不同的信號刺激。

分別是10%、50%、90%的獎(jiǎng)賞概率，并同時(shí)記錄了四個(gè)多巴胺神經(jīng)元的反應(yīng)。

每條軌跡都是對三種線索之一的平均反應(yīng)，零時(shí)是開始時(shí)間。

結(jié)果顯示，一些細(xì)胞將50%的線索編碼為90%的線索，而另一些細(xì)胞同時(shí)將10%的線索編碼為10%的線索。

最后，研究者還進(jìn)行了驗(yàn)證，試圖從多巴胺細(xì)胞的放電率來解碼獎(jiǎng)賞分布。

通過進(jìn)行推理，成功地重建了一個(gè)與老鼠參與的任務(wù)中獎(jiǎng)勵(lì)的實(shí)際分配相匹配的分配。

初步驗(yàn)證了小鼠的大腦分布式強(qiáng)化學(xué)習(xí)機(jī)制，給研究員帶來了更多的思考：

是什么電路或細(xì)胞級機(jī)制導(dǎo)致了不對稱的多樣性？

不同的RPE通道是如何與相應(yīng)的獎(jiǎng)勵(lì)預(yù)測在解剖學(xué)上結(jié)合？

這些大腦的謎團(tuán)都有待于進(jìn)一步了解。

而且這一研究結(jié)果也驗(yàn)證了之前多巴胺分布對成癮和抑郁等精神障礙機(jī)制影響的假說。

有理論認(rèn)為，抑郁癥和雙相情感障礙都可能涉及關(guān)于未來的負(fù)面情緒。

這些情緒與未來的負(fù)面預(yù)測偏差有關(guān)，偏差則可能來自于RPE coding28、29中的不對稱。

但更多的意義，則是對當(dāng)前機(jī)器學(xué)習(xí)技術(shù)發(fā)展的激勵(lì)。

DeepMind 神經(jīng)科學(xué)研究負(fù)責(zé)人Matt Botvinick說：“當(dāng)我們能夠證明大腦使用的算法，與我們在人工智能工作中使用的算法類似時(shí)，這將增強(qiáng)我們的信心?！?/p>

跨學(xué)科研究團(tuán)隊(duì)的成果

這篇論文中一共有3位共同一作，也是跨學(xué)科團(tuán)隊(duì)的研究成果。

排在第一位的是Will Dabney，DeepMind的高級研究科學(xué)家。

△Will Dabney

本科畢業(yè)于美國奧克拉荷馬大學(xué)，在馬薩諸塞大學(xué)阿默斯特分校獲得了博士學(xué)位。

在加入DeepMind之前，曾在亞馬遜的Echo團(tuán)隊(duì)工作過。

2016年加入DeepMind。

第二位共同一作是Zeb Kurth-Nelson，他是DeepMind的研究科學(xué)家。

△Zeb Kurth-Nelson

博士畢業(yè)于明尼蘇達(dá)大學(xué)，2016年加入DeepMind。

第三位共同一作是Naoshige Uchida，來自于哈佛大學(xué)，是分子和細(xì)胞生物學(xué)教授。

△Naoshige Uchida

此外，DeepMind創(chuàng)始人哈薩比斯也在作者之列。

他一直都希望，能夠通過人工智能的突破也將幫助我們掌握基礎(chǔ)的科學(xué)問題。

而現(xiàn)在的研究發(fā)現(xiàn)，他們致力的研究方向，竟然能夠給人們研究大腦帶來啟發(fā)，無疑堅(jiān)定了他們的研究信心。

One More Thing

就在這篇論文登上Nature的同時(shí)，DeepMind還有另外一篇研究出現(xiàn)了同一期刊上。

它就是DeepMind在2018年12月問世的AlphaFold，一個(gè)用人工智能加速科學(xué)發(fā)現(xiàn)的系統(tǒng)。

僅僅基于蛋白質(zhì)的基因序列，就能預(yù)測蛋白質(zhì)的3D結(jié)構(gòu)，而且結(jié)果比以前的任何模型都要精確。

DeepMind稱，這是自己在科學(xué)發(fā)現(xiàn)領(lǐng)域的第一個(gè)重要里程碑，在生物學(xué)的核心挑戰(zhàn)之一上取得了重大進(jìn)展。

截止到現(xiàn)在，DeepMind提出Alpha系列，從AlphaGo，到AlphaZero，再到AlphaStar，以及現(xiàn)在的AlphaFold，一門4子，全上了Nature。

唉…頂級研究機(jī)構(gòu)的快樂，就是這么樸實(shí)無華，且枯燥。

傳送門

https://www.nature.com/articles/s41586-019-1924-6

本文轉(zhuǎn)載自微信公眾號“量子位”，原標(biāo)題《人類對大腦多巴胺機(jī)制理解錯(cuò)了！頂級版AlphaGo背后技術(shù)啟發(fā)腦科學(xué)，DeepMind最新成果登上Nature》。文章為作者獨(dú)立觀點(diǎn)，不代表芥末堆立場，轉(zhuǎn)載請聯(lián)系原作者。

1、本文是芥末堆網(wǎng)轉(zhuǎn)載文章，原文：量子位；
2、芥末堆不接受通過公關(guān)費(fèi)、車馬費(fèi)等任何形式發(fā)布失實(shí)文章，只呈現(xiàn)有價(jià)值的內(nèi)容給讀者；
3、如果你也從事教育，并希望被芥末堆報(bào)道，請您填寫信息告訴我們。

來源：量子位

芥末堆商務(wù)合作：王老師 18710003484

DeepMind最新成果登上Nature，或可重新認(rèn)識大腦的工作機(jī)制