核心提示:過(guò)去十年,AI 在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、機(jī)器翻譯、機(jī)器人、醫(yī)學(xué)、計(jì)算生物學(xué)、蛋白質(zhì)折疊預(yù)測(cè)等等領(lǐng)域取得了一個(gè)又一個(gè)突破,而這
過(guò)去十年,AI 在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別、機(jī)器翻譯、機(jī)器人、醫(yī)學(xué)、計(jì)算生物學(xué)、蛋白質(zhì)折疊預(yù)測(cè)等等領(lǐng)域取得了一個(gè)又一個(gè)突破,而這些突破的背后,均離不開(kāi)深度學(xué)習(xí)。那么,深度學(xué)習(xí)起源于何時(shí)何地,又在何時(shí)成為最突出的AI方法?
最近,UC伯克利教授、深度學(xué)習(xí)專(zhuān)家Pieter Abbeel在其播客節(jié)目《機(jī)器人大腦》(Robot Brains)中,對(duì)Geoffrey Hinton進(jìn)行了一次訪談。
曾獲得2018年圖靈獎(jiǎng)的Hinton,被稱(chēng)為「深度學(xué)習(xí)三巨頭」之一,是人工智能史上最重要的學(xué)者之一。他的論文被引用了50多萬(wàn)次,這意味著,有50萬(wàn)篇以上的研究論文是建立在他的研究之上。
他在深度學(xué)習(xí)領(lǐng)域已經(jīng)研究了大約半個(gè)世紀(jì),大部分時(shí)間相對(duì)默默無(wú)聞,但在2012年,事情發(fā)生了轉(zhuǎn)折:那一年,憑借AlexNet在ImageNet比賽的勝出,他證明了深度學(xué)習(xí)在圖像識(shí)別方面比其他計(jì)算機(jī)視覺(jué)的方法具備更大的優(yōu)勢(shì)。這被稱(chēng)為「ImageNet時(shí)刻」,改變了整個(gè)AI領(lǐng)域,掀起了深度學(xué)習(xí)的浪潮。
在這次對(duì)話中,Hinton講述了他從學(xué)術(shù)界到谷歌大腦的工作經(jīng)歷、學(xué)習(xí)心理學(xué)和當(dāng)木匠的經(jīng)歷,以及可視化技術(shù)t-SNE算法背后的歷史,并就一些問(wèn)題發(fā)表了他的觀點(diǎn),包括:
現(xiàn)有的神經(jīng)網(wǎng)絡(luò)和反向傳播算法與大腦的運(yùn)作方式有何不同?
為什么我們需要無(wú)監(jiān)督的局部目標(biāo)函數(shù)?
睡眠和玻爾茲曼機(jī)的功能是什么?
為什么培育計(jì)算機(jī)比制造計(jì)算機(jī)更好?
為什么需要負(fù)面數(shù)據(jù)?
如今的大規(guī)模語(yǔ)言模型真正理解了語(yǔ)言嗎?
……
AI科技評(píng)論在不改變?cè)獾幕A(chǔ)上對(duì)他們的訪談作了編輯與整理:
Geoffrey Hinton 最新訪談:不出五年,我們就會(huì)破解大腦的運(yùn)作機(jī)制,但不是通過(guò)反向傳播
1
反向傳播不同于人腦運(yùn)作方式
Abbeel:什么是神經(jīng)網(wǎng)絡(luò)?我們?yōu)槭裁匆P(guān)注它?
Hinton:我們的大腦是這樣工作的:
它有很多被稱(chēng)為神經(jīng)元的小處理元件,每隔一段時(shí)間,一個(gè)神經(jīng)元就會(huì)發(fā)出 “ping”聲,而使它發(fā)出“ping”聲的原因是它聽(tīng)到了其他神經(jīng)元的“ping”聲。每次它聽(tīng)到其他神經(jīng)元的“ping”聲時(shí),就會(huì)在它得到的一些輸入存儲(chǔ)中增加權(quán)重,當(dāng)權(quán)重達(dá)到一定輸入后,它也會(huì)發(fā)出“ping”聲。
因此,如果你想知道大腦是如何工作的,你只需要知道神經(jīng)元如何決定調(diào)整這些權(quán)重。有一些用于調(diào)整權(quán)重的程序,如果我們能夠把它們弄清楚,那我們就會(huì)知道大腦是如何工作的。我認(rèn)為我們會(huì)在未來(lái)五年內(nèi)破解這些程序。
我認(rèn)為,所有現(xiàn)有的人工智能都是建立在與大腦高層次上所做的事情完全不同的基礎(chǔ)上。它必須趨于相同,當(dāng)你有很多參數(shù),假設(shè)你有數(shù)十億的參數(shù),這些神經(jīng)元間的權(quán)重在你大量訓(xùn)練實(shí)例的基礎(chǔ)上去調(diào)整參數(shù),就會(huì)發(fā)生奇妙的事情。大腦是這樣,深度學(xué)習(xí)也是這樣。問(wèn)題在于,你如何獲得調(diào)整參數(shù)的梯度,因此你要思考衡量標(biāo)準(zhǔn)及想調(diào)整的參數(shù),使它們來(lái)完善你想達(dá)成的措施。
但我目前的信念是,反向傳播,也即目前深度學(xué)習(xí)的工作方式,與大腦所做的完全不同,大腦是以不同的方式來(lái)獲得梯度的。
Abbeel:你寫(xiě)過(guò)一篇關(guān)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的反向傳播的論文,它成為今天大家所做一切的動(dòng)力,而現(xiàn)在你說(shuō)是時(shí)候弄清楚我們是否應(yīng)該做些改變了?是否應(yīng)該將其向與大腦相似做努力?你是否認(rèn)為反向傳播可以比大腦正在做的事更好?
Hinton:Rumelhart、Williams和我確實(shí)寫(xiě)了關(guān)于反向傳播的論文(如下)、且被引用次數(shù)最多。
Geoffrey Hinton 最新訪談:不出五年,我們就會(huì)破解大腦的運(yùn)作機(jī)制,但不是通過(guò)反向傳播
論文地址:http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf
反向傳播已廣為人知。我們真正做的是表明了它可以學(xué)習(xí)有趣的表征,并非我們發(fā)明了反向傳播,而是重新定義了反向傳播。我們提出它可以學(xué)習(xí)有趣的表征,例如單詞嵌入,因此認(rèn)為反向傳播可能比我們?cè)诖竽X中的效率要高得多。將大量信息擠壓到少數(shù)幾個(gè)連接中,而少數(shù)幾個(gè)連接只有幾十億個(gè),因此大腦的問(wèn)題是連接非常便宜,有數(shù)以萬(wàn)億計(jì)的連接, 而經(jīng)驗(yàn)是非常昂貴的,所以我們傾向于在少量經(jīng)驗(yàn)上投入大量參數(shù)。
而我們正在使用的神經(jīng)網(wǎng)絡(luò)基本上是相反的。它們有很多的經(jīng)驗(yàn),并試圖把輸入和輸出的信息聯(lián)系到參數(shù)中。我認(rèn)為反向傳播比大腦使用的方法更有效,但并不擅長(zhǎng)從不多的數(shù)據(jù)中抽象出很多結(jié)構(gòu)。
Abbeel:對(duì)于這方面,你有什么可能獲得更好性能的方法的假設(shè)嗎?
Hinton:很長(zhǎng)時(shí)間里我都認(rèn)為,我們需要無(wú)監(jiān)督目標(biāo)函數(shù)。這里主要是指感知學(xué)習(xí),如果你能通過(guò)觀察世界來(lái)學(xué)習(xí)模型,那你就可以基于這個(gè)模型、而非原始數(shù)據(jù)采取行動(dòng),這正確率更高。
我相信大腦使用了很多局部小的目標(biāo)函數(shù),它不是一種端到端的系統(tǒng)鏈,通過(guò)訓(xùn)練來(lái)優(yōu)化目標(biāo)函數(shù)。
舉個(gè)例子,如果你看張圖像的一小塊,試圖提取些表征,可以將你從那小塊圖像中得到的表征、與通過(guò)附近其他斑塊的表征而得到的上下文語(yǔ)境進(jìn)行比較,由此去預(yù)測(cè)該圖像中有什么。
一旦你對(duì)這個(gè)領(lǐng)域很熟悉,這些來(lái)自上下文的預(yù)測(cè)和本地提取的特征通常會(huì)一致。如果不一致,你也能從中學(xué)到很多。
我認(rèn)為大腦可以從這種局部分歧中學(xué)到很多東西。可能在你看來(lái),一個(gè)大圖像和圖像的許多小局部斑塊意味著很多反饋,即圖像中的局部提取和上下文預(yù)測(cè)的一致。我們可以從這些與上下文預(yù)測(cè)的一致中得到更豐富的反饋。要做到這一點(diǎn)很難,但我認(rèn)為現(xiàn)在正沿著這條線發(fā)展。
Abbeel:你對(duì)SimCLR這項(xiàng)工作以及它與更普遍的學(xué)習(xí)的差異有什么看法?你怎么看待最近的MAE(Masked Autoencoders)?它與你剛才的描述有什么關(guān)系?
Hinton:我所得到的相關(guān)有證據(jù)表明,這種目標(biāo)函數(shù)是好的。
我個(gè)人沒(méi)有寫(xiě)過(guò)這篇論文,但在很久以前,曾與Sue Becker寫(xiě)過(guò)一篇關(guān)于從圖像的兩個(gè)不同斑塊得到一致表征思考的論文。我認(rèn)為,那是關(guān)于通過(guò)在同一圖像的兩個(gè)塊表征之間達(dá)成一致、來(lái)進(jìn)行自監(jiān)督學(xué)習(xí)的想法的起源。
Abbeel:我們來(lái)談一談你提到的使用端到端學(xué)習(xí)反向傳播來(lái)支持端到端學(xué)習(xí)的方法。你的意思是,以接近大腦的學(xué)習(xí)方式,即從更少的數(shù)據(jù)中學(xué)習(xí)、提取更多數(shù)據(jù),將是在了解大腦運(yùn)作方式上取得進(jìn)展的關(guān)鍵。今天,很多人正在努力解決從無(wú)標(biāo)簽數(shù)據(jù)中有效學(xué)習(xí)的問(wèn)題,因?yàn)樗枰娜肆Ω伲麄內(nèi)匀皇褂酶聪騻鞑ハ嗤臋C(jī)制。
Hinton:我不喜歡MAE的地方在于,你有一些輸入補(bǔ)丁,經(jīng)過(guò)多層表征,在網(wǎng)絡(luò)的輸出中試圖重建缺失的輸入補(bǔ)丁。
我認(rèn)為大腦有這些層次上的表征,但每個(gè)層都在試圖重構(gòu)下面那個(gè)層次的內(nèi)容。并不是說(shuō)經(jīng)歷了這么多層再返回,而是有這么多層,每一層都試圖重建下一層的東西。在我看來(lái),這更像大腦,但問(wèn)題在于:如果不使用反向傳播,你能做到這一點(diǎn)嗎?
顯然,如果通過(guò)多個(gè)層次重建輸出的缺失部分,你需要通過(guò)所有層次來(lái)獲得信息,而反向傳播已經(jīng)內(nèi)置于所有的模擬器中,但大腦并非如此。
Abbeel:想象一下,大腦在處理這些局部的目標(biāo)時(shí)有三個(gè)選擇:一是我們想要優(yōu)化的局部目標(biāo)是什么?二是用什么算法來(lái)優(yōu)化它?三是我們將神經(jīng)元連接在一起進(jìn)行學(xué)習(xí)的架構(gòu)是什么?在這三個(gè)問(wèn)題上,我們似乎都還沒(méi)有做得很好。你怎么看?
Hinton:如果你對(duì)認(rèn)知學(xué)習(xí)感興趣,那就非常清楚。
你想要一個(gè)可視主題地圖,一種書(shū)寫(xiě)主題地圖的層次結(jié)構(gòu),架構(gòu)上是局部連接的。對(duì)此,你可以通過(guò)假設(shè)在反電子地圖上某個(gè)位置的東西是由其對(duì)應(yīng)的視神經(jīng)圖決定的,來(lái)解決很多信用分配問(wèn)題。不需深入系統(tǒng),而是使用局部交互、弄清楚像素在其中的作用。
目前,神經(jīng)網(wǎng)絡(luò)所做的是,假設(shè)在每個(gè)局部性上使用相同函數(shù),卷積神經(jīng)網(wǎng)絡(luò)如此,transformer也如此。大腦不一定能做到這點(diǎn),因?yàn)檫@會(huì)涉及權(quán)重共享,且要在每個(gè)地方做完全相同的計(jì)算。而有一種方法能達(dá)到權(quán)重共享的目標(biāo),那就是卷積,我認(rèn)為它在大腦中能起到更有效的作用。
如果你想通過(guò)上下文預(yù)測(cè)同局部提取達(dá)成一致,那么想象一下,有一堆列在做本地預(yù)測(cè),并通過(guò)查看附近的列以獲得其上下文預(yù)測(cè)。你可以把上下文看作是本地預(yù)測(cè)的老師,反之亦然。把上下文中的信息看作是被提煉到本地提取器中。由此可得到的是相互提煉,它們都在為對(duì)方提供教學(xué)信號(hào),這意味著關(guān)于你應(yīng)在一個(gè)地方提取的知識(shí)正被轉(zhuǎn)移到其他地方。
當(dāng)它們?cè)噲D達(dá)成一致,或者想讓不同位置的事物達(dá)成一致,例如希望鼻子和嘴巴同意各自是同一張臉的一部分,那它們都應(yīng)該產(chǎn)生相同的表征,當(dāng)你試圖在不同地方獲得相同表征,就需要允許知識(shí)從一個(gè)地方被提煉到另一個(gè)地方,這與實(shí)際的權(quán)重共享相比有更大的優(yōu)勢(shì)。
顯然,從生物學(xué)角度來(lái)說(shuō),一個(gè)優(yōu)勢(shì)是不同位置的詳細(xì)架構(gòu)無(wú)需相同,另一個(gè)優(yōu)勢(shì)是前端處理無(wú)需相同。
拿視網(wǎng)膜來(lái)說(shuō),不同部分的視網(wǎng)膜有不同大小的感知域,卷積網(wǎng)忽略它們多個(gè)不同的分辨率,并在每個(gè)分辨率上做卷積,但它們無(wú)法執(zhí)行不同的前端處理。而如果從一個(gè)位置提取到另一個(gè)位置,要做的就是從光學(xué)陣列獲得相同函數(shù)在不同位置的表示,此時(shí)在不同的位置對(duì)光學(xué)陣列采取不同的預(yù)處理也可以,即使前端處理不同,但仍可以提煉出表示整個(gè)功能的知識(shí)。
所以,雖然提取比實(shí)際顯示權(quán)重效率低,但它更靈活,在神經(jīng)系統(tǒng)上更可信。這也是我一年前提出一個(gè)重要看法,即必須有類(lèi)似權(quán)重共享的技巧來(lái)提高效率,但如果你試圖讓相鄰事物達(dá)成一致,那本地提取就會(huì)起作用。
Abbeel:既然大腦的方式不同,我們是否應(yīng)該繼續(xù)用另一種方式來(lái)考慮權(quán)重共享,還是說(shuō)我們不應(yīng)該繼續(xù)權(quán)重共享?
Hinton:我認(rèn)為應(yīng)該繼續(xù)在卷積網(wǎng)中做卷積的事情,在transformer中共享權(quán)重,通過(guò)共享權(quán)重來(lái)共享知識(shí)。要記住,大腦分享知識(shí)不是通過(guò)共享權(quán)重,而是通過(guò)共享從輸入到輸出的功能,利用提取來(lái)傳遞知識(shí)。
2
人腦尖峰神經(jīng)元 vs. GPU人工神經(jīng)元
Abbeel:現(xiàn)在還有一個(gè)話題被廣泛談?wù)摚竽X與當(dāng)前神經(jīng)網(wǎng)絡(luò)很不同,神經(jīng)元是用尖峰信號(hào)工作的,跟我們GPU中的人工神經(jīng)元存在很大的差異。我很好奇你對(duì)這個(gè)問(wèn)題的看法,這只是一個(gè)工程上的差異,還是我們可能需要更多知識(shí)來(lái)更好理解?
Hinton:這不僅僅是工程上的不同。一旦我們理解了為什么硬件這么出色,就能理解它對(duì)大腦地理標(biāo)記單位視網(wǎng)膜是敏感的。例如,視網(wǎng)膜不使用尖峰神經(jīng)元,有大量非尖峰神經(jīng)的處理。一旦理解了大腦皮層的運(yùn)作原因,我們就會(huì)發(fā)現(xiàn)這是生物學(xué)的正確做法。我認(rèn)為這取決于學(xué)習(xí)算法是如何得到尖峰神經(jīng)元網(wǎng)絡(luò)的梯度,但目前沒(méi)有人真正知道。
關(guān)于尖峰神經(jīng)元的問(wèn)題,往往會(huì)出現(xiàn)兩種截然不同的決策:它在什么時(shí)候會(huì)出現(xiàn)尖峰,以及它會(huì)不會(huì)出現(xiàn)尖峰。這就是離散決策。人們想出各種替代函數(shù)來(lái)試圖優(yōu)化系統(tǒng)。
2000年,Andy Brown和我有一篇關(guān)于嘗試學(xué)習(xí)尖峰玻耳茲曼機(jī)的論文,如果有一個(gè)適合尖峰碼的學(xué)習(xí)算法就太棒了,我想這是阻礙尖峰神經(jīng)元硬件發(fā)展的主要原因。
許多人已經(jīng)意識(shí)到可以用這種方式制造更節(jié)能的硬件,并且也構(gòu)建了巨大的系統(tǒng),但真正欠缺的是一個(gè)出色的學(xué)習(xí)結(jié)果。因此我認(rèn)為,在得到一個(gè)好的學(xué)習(xí)算法之前,我們將無(wú)法真正利用尖峰神經(jīng)元做事情。
因此,當(dāng)你采取一個(gè)標(biāo)準(zhǔn)的人工神經(jīng)元時(shí),只需要問(wèn):它是否能分辨輸入的兩個(gè)值是否相同?不能。但當(dāng)你使用尖峰神經(jīng)元時(shí),就很容易建立一個(gè)系統(tǒng),兩個(gè)尖峰在同時(shí)到達(dá),它們就會(huì)放電,不同時(shí)間到達(dá)則不會(huì)。因此,使用峰值時(shí)間似乎是一個(gè)衡量一致性的好方法。
正如生物系統(tǒng),你之所以可以看到方向、聲音,來(lái)自于信號(hào)到達(dá)兩只耳朵的延時(shí),如果拿一英尺來(lái)說(shuō),光大約是一納秒,而第一個(gè)聲音大約是一毫秒。但如果我將東西在你側(cè)面移動(dòng)幾英寸,到兩只耳朵的時(shí)間延遲差異,到兩只耳朵的路徑長(zhǎng)度只有一英寸的一小部分,即信號(hào)到兩只耳朵的時(shí)間差只有一毫秒。因此我們對(duì)30毫秒的時(shí)間很敏感,以便從聲音中獲得立體聲。我們通過(guò)兩個(gè)軸突(不同方向尖峰傳遞)來(lái)做到這一點(diǎn),一個(gè)來(lái)自一個(gè)耳朵,一個(gè)來(lái)自另一個(gè)耳朵,當(dāng)尖峰同時(shí)到達(dá),就有細(xì)胞發(fā)出信號(hào)。
因?yàn)榧夥鍟r(shí)間可以被用來(lái)做非常敏感的事情,那當(dāng)它的精確時(shí)間沒(méi)被使用時(shí),將是件令人驚訝的事。長(zhǎng)時(shí)間以來(lái),我一直認(rèn)為,如果你能用尖峰時(shí)間來(lái)檢測(cè)自監(jiān)督學(xué)習(xí)等方面的一致性,或者說(shuō),我提取了你的嘴巴和鼻子的信息,從嘴巴和鼻子來(lái)預(yù)測(cè)你整個(gè)面部,當(dāng)你的嘴巴和鼻子能正確組成一個(gè)面部,這些預(yù)測(cè)就會(huì)一致。如果能用尖峰時(shí)間來(lái)觀察這些預(yù)測(cè)是否一致就更好了,但很難做到,因?yàn)槲覀儾恢馈⒁矝](méi)有一個(gè)好的算法來(lái)訓(xùn)練網(wǎng)絡(luò),就像神經(jīng)元一樣。
Abbeel:你剛才是說(shuō)視網(wǎng)膜不使用所有尖峰神經(jīng)元?大腦有兩種類(lèi)型的神經(jīng)元,有些更像我們的人工神經(jīng)元,有些則是尖峰神經(jīng)元?
Hinton:我不確定視網(wǎng)膜是否更像人工神經(jīng)元,但可以肯定的是,大腦新皮層有尖峰神經(jīng)元,這是它的主要交流模式,發(fā)送尖峰從一個(gè)參數(shù)到另一個(gè)參數(shù)細(xì)胞。
我有一個(gè)很好的論點(diǎn):大腦有非常多參數(shù),和我們使用的典型神經(jīng)網(wǎng)絡(luò)相比沒(méi)有太多的數(shù)據(jù),這種狀態(tài)下有可能過(guò)度擬合,除非使用強(qiáng)大的正則化。一個(gè)好的正則化技術(shù)是每次你使用一個(gè)神經(jīng)網(wǎng)絡(luò),你忽略了一大堆的單元,因此可能也忽略神經(jīng)元正在發(fā)送尖峰的事實(shí)。它們真正交流的是潛在的泊松速率。我們假設(shè)它是傳遞的。這個(gè)過(guò)程是有代價(jià)的,它隨機(jī)發(fā)送脈沖,這個(gè)過(guò)程中速率是變化的,由輸入到神經(jīng)元的信息決定,你可能會(huì)想要把真實(shí)值的速率從一個(gè)神經(jīng)元發(fā)送到另一個(gè),當(dāng)你想做很多正則化,可以把真實(shí)值的速率加上一些噪聲,增加噪音的一種方法是使用會(huì)增加很多噪音的脈沖,大多數(shù)情況下就是退出的動(dòng)機(jī)。
當(dāng)你觀察任何一個(gè)時(shí)間窗口,大多數(shù)神經(jīng)元都不參與任何事情,你可以把尖峰看作是一個(gè)代表性的潛在個(gè)人比率。這聽(tīng)起來(lái)非常糟糕,因?yàn)樗茑须s。但一旦你理解了正則化,這會(huì)是個(gè)非常好的主意。
所以我仍然對(duì)這個(gè)想法情有獨(dú)鐘,但實(shí)際上我們根本沒(méi)有使用尖峰計(jì)時(shí)。它只是使用非常嘈雜的個(gè)人速率表示來(lái)成為一個(gè)好的正則化器,而我有點(diǎn)像在兩者之間切換。有些年我認(rèn)為神經(jīng)網(wǎng)絡(luò)是確定性的。我們應(yīng)該有確定性的神經(jīng)網(wǎng)絡(luò),這是再往后幾年的東西。我認(rèn)為這是一個(gè)5年的周期。最好的隨機(jī)性也非常重要,它會(huì)改變一切。因此,玻爾茲曼機(jī)本質(zhì)上是隨機(jī)的,這對(duì)它們來(lái)說(shuō)很重要。但重要的是,不要完全致力于這兩種情況,而是要對(duì)這兩種情況持開(kāi)放態(tài)度。
現(xiàn)在重要的是,更多地考慮你剛才所說(shuō)尖峰神經(jīng)元的重要性,并弄清楚如何有效地訓(xùn)練尖峰神經(jīng)元網(wǎng)絡(luò)。
Abbeel:如果我們現(xiàn)在說(shuō)不要擔(dān)心訓(xùn)練的部分(考慮到它看起來(lái)更有效率),難道人們不想分布純粹的推理芯片,也即是分別進(jìn)行有效的預(yù)訓(xùn)練,然后將其編譯到尖峰神經(jīng)元芯片上,使它具有非常低功率的推理能力?
Hinton:很多人都想到了這一點(diǎn),這非常明智,它可能在進(jìn)化的道路上使用神經(jīng)網(wǎng)絡(luò)進(jìn)行推理是有效的,并且所有人都在這樣做,也被證明是更有效的,不同的公司已經(jīng)生產(chǎn)了這些大的尖峰系統(tǒng)。
一旦你在做這些事情,你會(huì)對(duì)推理越來(lái)越感興趣,可以用一種方式來(lái)學(xué)習(xí)在尖峰時(shí)期更多利用可用的能量。所以你可以想象有一個(gè)系統(tǒng),你學(xué)習(xí)時(shí)是使用輔助設(shè)備,不是模擬硬件,例如不在這個(gè)低能量的硬件上,但你可以將其轉(zhuǎn)移到低能量的硬件上就很好。
3
AlexNet的誕生背景
Abbeel:什么是AlexNet?它是如何產(chǎn)生的?你從研究受限玻爾茲曼機(jī)器到試圖理解大腦如何工作的路徑是什么?
Hinton:我想說(shuō),你可能突然間就證明了,更傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法確實(shí)行得通。
大約在2005年,我被可以使用成堆的限制電壓機(jī)器來(lái)預(yù)先訓(xùn)練特征檢測(cè)器的想法迷住了,它可以更容易地讓Backdrop工作,結(jié)果是有足夠的數(shù)據(jù)。后來(lái),因?yàn)镕aith Ali和她的圖像識(shí)別團(tuán)隊(duì)有了足夠的數(shù)據(jù),盡管預(yù)訓(xùn)練即將回歸,但不再需要預(yù)訓(xùn)練。
GPT-3有預(yù)訓(xùn)練,預(yù)訓(xùn)練也是個(gè)好主意,可一旦我們發(fā)現(xiàn)你可以預(yù)訓(xùn)練,這能使背景工作更好,對(duì)語(yǔ)音有很大的幫助,就像George John 和 Abdul Rahman Muhammad在2009年做的那樣。此后,我小組的研究生 Alex 開(kāi)始將相同的想法應(yīng)用于視覺(jué),很快我們發(fā)現(xiàn),當(dāng)你有ImageNet的數(shù)據(jù)時(shí),你并不需要預(yù)訓(xùn)練。
我記得有一天Ilya來(lái)到實(shí)驗(yàn)室說(shuō):「看,現(xiàn)在我們已經(jīng)有了語(yǔ)音識(shí)別,這東西真的很管用 ,我們必須在其他人之前做出ImageNet!笿anella也走進(jìn)實(shí)驗(yàn)室表達(dá)了這樣的想法,他的學(xué)生和博士后也說(shuō):「哇,但是我正在忙其他的事情!故聦(shí)上他沒(méi)有辦法讓誰(shuí)致力于此。后來(lái)他說(shuō)服了Alex通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理來(lái)完成這個(gè)實(shí)驗(yàn),數(shù)據(jù)都被預(yù)處理成他所需要的。
這只是背景。我想說(shuō)的是,很多研究人員都知道這個(gè),但可能不是每個(gè)人都知道Alex的結(jié)果和Ilya之前在ImageNet圖像識(shí)別競(jìng)賽上的工作相比錯(cuò)誤率降低了一半。這就是為什么每個(gè)人都從手工設(shè)計(jì)的方法轉(zhuǎn)向計(jì)算機(jī)視覺(jué),嘗試直接編程。
4
從學(xué)術(shù)界到谷歌
Abbeel:哪一刻標(biāo)志著你的職業(yè)生涯發(fā)生了重大變化?從學(xué)術(shù)界到谷歌,對(duì)你產(chǎn)生了什么影響?為什么會(huì)發(fā)生這種轉(zhuǎn)變?
Hinton:我有一個(gè)殘疾的兒子需要撫養(yǎng),所以需要一大筆錢(qián),一個(gè)方法是教課。2012年,我教了一門(mén)神經(jīng)網(wǎng)絡(luò)的課程。但他們的軟件不是很好,所以做起來(lái)非常煩躁。每周一章,我必須給他們提供教學(xué)視頻,會(huì)有一大堆人要看。有時(shí)上完課第二天Yoshua Bengio會(huì)問(wèn):「你為什么(在課上)這么說(shuō)?」
我與多倫多大學(xué)最初的協(xié)議是,如果從這些課程中賺到任何錢(qián),我希望大學(xué)將錢(qián)與教授們分享,他們沒(méi)有明確說(shuō)明具體的分配方式,但人們認(rèn)為大概在50%或類(lèi)似,我對(duì)此沒(méi)有意見(jiàn)。但在我開(kāi)始授課后,教務(wù)長(zhǎng)在沒(méi)有咨詢(xún)我或其他人的情況下做出了一個(gè)單方面的決定:如果資金來(lái)自課程平臺(tái),大學(xué)會(huì)拿走所有的錢(qián),而教授什么都拿不到。我讓學(xué)校幫我準(zhǔn)備視頻,制作視頻的人會(huì)來(lái)問(wèn)我,你知道制作視頻有多貴嗎?
這讓我對(duì)學(xué)校感到非常生氣,所以我開(kāi)始考慮教授之外的其他職業(yè)選擇。那個(gè)時(shí)候,我們突然引起了各種公司的興趣,他們要招募我們,要么是給予大額撥款,要么是資助創(chuàng)業(yè)。通常我會(huì)說(shuō)不,我不想試圖從研究中賺取額外的錢(qián),但那次學(xué)校騙了我錢(qián)的經(jīng)歷,讓我想找一些其他的方式來(lái)賺錢(qián)。
Abbeel:當(dāng)時(shí)的拍賣(mài)會(huì)是一種怎樣的場(chǎng)景?
Hinton:那是在NIPS會(huì)議上,Terry在一個(gè)賭場(chǎng)里組織了一些小活動(dòng)。在酒店地下室煙霧繚繞的房間里,有人在樓上賭博,感覺(jué)就像在拍電影。我們完全不知道自己值多少錢(qián)。我咨詢(xún)了一位律師,他說(shuō)我可以聘請(qǐng)專(zhuān)業(yè)的談判人員,或者直接進(jìn)行拍賣(mài)。
據(jù)我所知,這是第一次有像這樣的小團(tuán)體進(jìn)行拍賣(mài)。我們通過(guò)Gmail進(jìn)行拍賣(mài),人們必須把他們的出價(jià)用電子郵件發(fā)給我,并附上電子郵件的時(shí)間戳。價(jià)格一直在漲,一開(kāi)始是50萬(wàn)美元,之后是100萬(wàn)美元,這很令人興奮,我們發(fā)現(xiàn)自己的價(jià)值比我們想象的要高得多。
回想起來(lái),我們也許可以得到更多,但我們已經(jīng)看到了一個(gè)我們認(rèn)為是天文數(shù)字的金額。我們都想為谷歌工作,所以我們停止了拍賣(mài),并確定加入谷歌。
Abbeel:據(jù)我了解,你今天還在谷歌。
Hinton:我現(xiàn)在還在谷歌工作,已經(jīng)9年了。我喜歡谷歌的主要原因是,核心團(tuán)隊(duì)非常好。
我和Jeff Dean相處得非常好,他非常聰明,而我是非常直截了當(dāng)?shù)摹KM易龅恼俏蚁胱龅氖虑,也就是基礎(chǔ)研究。他認(rèn)為我應(yīng)該做的是嘗試提出全新的算法,這就是我想做的,非常適配。我不擅長(zhǎng)管理一個(gè)大團(tuán)隊(duì),去提高百分之一的語(yǔ)音識(shí)別能力。但我很樂(lè)意,最好是可以再一次徹底改變這個(gè)領(lǐng)域。
Abbeel:你曾是多倫多大學(xué)的計(jì)算機(jī)科學(xué)教授,但你從來(lái)沒(méi)有獲得過(guò)計(jì)算機(jī)科學(xué)學(xué)位,你獲得過(guò)心理學(xué)學(xué)位,而且你還曾做過(guò)木匠。你是如何從學(xué)習(xí)心理學(xué)、到成為一名木匠、再到進(jìn)入人工智能領(lǐng)域的?
Hinton:在劍橋的最后一年,我過(guò)得很艱難?荚嚭笪揖屯藢W(xué)當(dāng)了一名木匠,我喜歡做木工活勝過(guò)其他任何事。高中時(shí)上完所有的課程,晚上就可以呆在家里做木工活,所以我成為了一名木匠,做了大約6個(gè)月。
但我不可能以做木匠為生。我曾是一名木匠兼裝修師,在裝修的過(guò)程中賺了錢(qián),我很享受做木工活的樂(lè)趣。直到我遇到了一個(gè)真正的木匠,才意識(shí)到我在木工方面完全沒(méi)有希望。他可以用手鋸把一塊木頭完全切成方形。和他比起來(lái),我太絕望了,我決定還是回到人工智能。
Abbeel:據(jù)我所知,你的博士是在愛(ài)丁堡大學(xué)攻讀的。
Hinton:是的,我去那里攻讀神經(jīng)網(wǎng)絡(luò)的博士學(xué)位,和著名教授Christopher Longa Higgins一起做研究,他真的非常出色,在30多歲時(shí)就因?yàn)檠芯砍雠饸浠锏慕Y(jié)構(gòu)而差點(diǎn)獲得諾貝爾獎(jiǎng)。他對(duì)神經(jīng)網(wǎng)絡(luò)以及與全息圖的關(guān)系很感興趣,大約在我到達(dá)愛(ài)丁堡的那天,他對(duì)神經(jīng)網(wǎng)絡(luò)失去興趣,因?yàn)樽x了Winograd的論文而完全改變看法,認(rèn)為神經(jīng)網(wǎng)絡(luò)是錯(cuò)誤的思考方式。盡管他完全不同意我所做的事情,但他并沒(méi)有阻止我做這件事。
最近,UC伯克利教授、深度學(xué)習(xí)專(zhuān)家Pieter Abbeel在其播客節(jié)目《機(jī)器人大腦》(Robot Brains)中,對(duì)Geoffrey Hinton進(jìn)行了一次訪談。
曾獲得2018年圖靈獎(jiǎng)的Hinton,被稱(chēng)為「深度學(xué)習(xí)三巨頭」之一,是人工智能史上最重要的學(xué)者之一。他的論文被引用了50多萬(wàn)次,這意味著,有50萬(wàn)篇以上的研究論文是建立在他的研究之上。
他在深度學(xué)習(xí)領(lǐng)域已經(jīng)研究了大約半個(gè)世紀(jì),大部分時(shí)間相對(duì)默默無(wú)聞,但在2012年,事情發(fā)生了轉(zhuǎn)折:那一年,憑借AlexNet在ImageNet比賽的勝出,他證明了深度學(xué)習(xí)在圖像識(shí)別方面比其他計(jì)算機(jī)視覺(jué)的方法具備更大的優(yōu)勢(shì)。這被稱(chēng)為「ImageNet時(shí)刻」,改變了整個(gè)AI領(lǐng)域,掀起了深度學(xué)習(xí)的浪潮。
在這次對(duì)話中,Hinton講述了他從學(xué)術(shù)界到谷歌大腦的工作經(jīng)歷、學(xué)習(xí)心理學(xué)和當(dāng)木匠的經(jīng)歷,以及可視化技術(shù)t-SNE算法背后的歷史,并就一些問(wèn)題發(fā)表了他的觀點(diǎn),包括:
現(xiàn)有的神經(jīng)網(wǎng)絡(luò)和反向傳播算法與大腦的運(yùn)作方式有何不同?
為什么我們需要無(wú)監(jiān)督的局部目標(biāo)函數(shù)?
睡眠和玻爾茲曼機(jī)的功能是什么?
為什么培育計(jì)算機(jī)比制造計(jì)算機(jī)更好?
為什么需要負(fù)面數(shù)據(jù)?
如今的大規(guī)模語(yǔ)言模型真正理解了語(yǔ)言嗎?
……
AI科技評(píng)論在不改變?cè)獾幕A(chǔ)上對(duì)他們的訪談作了編輯與整理:
Geoffrey Hinton 最新訪談:不出五年,我們就會(huì)破解大腦的運(yùn)作機(jī)制,但不是通過(guò)反向傳播
1
反向傳播不同于人腦運(yùn)作方式
Abbeel:什么是神經(jīng)網(wǎng)絡(luò)?我們?yōu)槭裁匆P(guān)注它?
Hinton:我們的大腦是這樣工作的:
它有很多被稱(chēng)為神經(jīng)元的小處理元件,每隔一段時(shí)間,一個(gè)神經(jīng)元就會(huì)發(fā)出 “ping”聲,而使它發(fā)出“ping”聲的原因是它聽(tīng)到了其他神經(jīng)元的“ping”聲。每次它聽(tīng)到其他神經(jīng)元的“ping”聲時(shí),就會(huì)在它得到的一些輸入存儲(chǔ)中增加權(quán)重,當(dāng)權(quán)重達(dá)到一定輸入后,它也會(huì)發(fā)出“ping”聲。
因此,如果你想知道大腦是如何工作的,你只需要知道神經(jīng)元如何決定調(diào)整這些權(quán)重。有一些用于調(diào)整權(quán)重的程序,如果我們能夠把它們弄清楚,那我們就會(huì)知道大腦是如何工作的。我認(rèn)為我們會(huì)在未來(lái)五年內(nèi)破解這些程序。
我認(rèn)為,所有現(xiàn)有的人工智能都是建立在與大腦高層次上所做的事情完全不同的基礎(chǔ)上。它必須趨于相同,當(dāng)你有很多參數(shù),假設(shè)你有數(shù)十億的參數(shù),這些神經(jīng)元間的權(quán)重在你大量訓(xùn)練實(shí)例的基礎(chǔ)上去調(diào)整參數(shù),就會(huì)發(fā)生奇妙的事情。大腦是這樣,深度學(xué)習(xí)也是這樣。問(wèn)題在于,你如何獲得調(diào)整參數(shù)的梯度,因此你要思考衡量標(biāo)準(zhǔn)及想調(diào)整的參數(shù),使它們來(lái)完善你想達(dá)成的措施。
但我目前的信念是,反向傳播,也即目前深度學(xué)習(xí)的工作方式,與大腦所做的完全不同,大腦是以不同的方式來(lái)獲得梯度的。
Abbeel:你寫(xiě)過(guò)一篇關(guān)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的反向傳播的論文,它成為今天大家所做一切的動(dòng)力,而現(xiàn)在你說(shuō)是時(shí)候弄清楚我們是否應(yīng)該做些改變了?是否應(yīng)該將其向與大腦相似做努力?你是否認(rèn)為反向傳播可以比大腦正在做的事更好?
Hinton:Rumelhart、Williams和我確實(shí)寫(xiě)了關(guān)于反向傳播的論文(如下)、且被引用次數(shù)最多。
Geoffrey Hinton 最新訪談:不出五年,我們就會(huì)破解大腦的運(yùn)作機(jī)制,但不是通過(guò)反向傳播
論文地址:http://www.cs.toronto.edu/~hinton/absps/naturebp.pdf
反向傳播已廣為人知。我們真正做的是表明了它可以學(xué)習(xí)有趣的表征,并非我們發(fā)明了反向傳播,而是重新定義了反向傳播。我們提出它可以學(xué)習(xí)有趣的表征,例如單詞嵌入,因此認(rèn)為反向傳播可能比我們?cè)诖竽X中的效率要高得多。將大量信息擠壓到少數(shù)幾個(gè)連接中,而少數(shù)幾個(gè)連接只有幾十億個(gè),因此大腦的問(wèn)題是連接非常便宜,有數(shù)以萬(wàn)億計(jì)的連接, 而經(jīng)驗(yàn)是非常昂貴的,所以我們傾向于在少量經(jīng)驗(yàn)上投入大量參數(shù)。
而我們正在使用的神經(jīng)網(wǎng)絡(luò)基本上是相反的。它們有很多的經(jīng)驗(yàn),并試圖把輸入和輸出的信息聯(lián)系到參數(shù)中。我認(rèn)為反向傳播比大腦使用的方法更有效,但并不擅長(zhǎng)從不多的數(shù)據(jù)中抽象出很多結(jié)構(gòu)。
Abbeel:對(duì)于這方面,你有什么可能獲得更好性能的方法的假設(shè)嗎?
Hinton:很長(zhǎng)時(shí)間里我都認(rèn)為,我們需要無(wú)監(jiān)督目標(biāo)函數(shù)。這里主要是指感知學(xué)習(xí),如果你能通過(guò)觀察世界來(lái)學(xué)習(xí)模型,那你就可以基于這個(gè)模型、而非原始數(shù)據(jù)采取行動(dòng),這正確率更高。
我相信大腦使用了很多局部小的目標(biāo)函數(shù),它不是一種端到端的系統(tǒng)鏈,通過(guò)訓(xùn)練來(lái)優(yōu)化目標(biāo)函數(shù)。
舉個(gè)例子,如果你看張圖像的一小塊,試圖提取些表征,可以將你從那小塊圖像中得到的表征、與通過(guò)附近其他斑塊的表征而得到的上下文語(yǔ)境進(jìn)行比較,由此去預(yù)測(cè)該圖像中有什么。
一旦你對(duì)這個(gè)領(lǐng)域很熟悉,這些來(lái)自上下文的預(yù)測(cè)和本地提取的特征通常會(huì)一致。如果不一致,你也能從中學(xué)到很多。
我認(rèn)為大腦可以從這種局部分歧中學(xué)到很多東西。可能在你看來(lái),一個(gè)大圖像和圖像的許多小局部斑塊意味著很多反饋,即圖像中的局部提取和上下文預(yù)測(cè)的一致。我們可以從這些與上下文預(yù)測(cè)的一致中得到更豐富的反饋。要做到這一點(diǎn)很難,但我認(rèn)為現(xiàn)在正沿著這條線發(fā)展。
Abbeel:你對(duì)SimCLR這項(xiàng)工作以及它與更普遍的學(xué)習(xí)的差異有什么看法?你怎么看待最近的MAE(Masked Autoencoders)?它與你剛才的描述有什么關(guān)系?
Hinton:我所得到的相關(guān)有證據(jù)表明,這種目標(biāo)函數(shù)是好的。
我個(gè)人沒(méi)有寫(xiě)過(guò)這篇論文,但在很久以前,曾與Sue Becker寫(xiě)過(guò)一篇關(guān)于從圖像的兩個(gè)不同斑塊得到一致表征思考的論文。我認(rèn)為,那是關(guān)于通過(guò)在同一圖像的兩個(gè)塊表征之間達(dá)成一致、來(lái)進(jìn)行自監(jiān)督學(xué)習(xí)的想法的起源。
Abbeel:我們來(lái)談一談你提到的使用端到端學(xué)習(xí)反向傳播來(lái)支持端到端學(xué)習(xí)的方法。你的意思是,以接近大腦的學(xué)習(xí)方式,即從更少的數(shù)據(jù)中學(xué)習(xí)、提取更多數(shù)據(jù),將是在了解大腦運(yùn)作方式上取得進(jìn)展的關(guān)鍵。今天,很多人正在努力解決從無(wú)標(biāo)簽數(shù)據(jù)中有效學(xué)習(xí)的問(wèn)題,因?yàn)樗枰娜肆Ω伲麄內(nèi)匀皇褂酶聪騻鞑ハ嗤臋C(jī)制。
Hinton:我不喜歡MAE的地方在于,你有一些輸入補(bǔ)丁,經(jīng)過(guò)多層表征,在網(wǎng)絡(luò)的輸出中試圖重建缺失的輸入補(bǔ)丁。
我認(rèn)為大腦有這些層次上的表征,但每個(gè)層都在試圖重構(gòu)下面那個(gè)層次的內(nèi)容。并不是說(shuō)經(jīng)歷了這么多層再返回,而是有這么多層,每一層都試圖重建下一層的東西。在我看來(lái),這更像大腦,但問(wèn)題在于:如果不使用反向傳播,你能做到這一點(diǎn)嗎?
顯然,如果通過(guò)多個(gè)層次重建輸出的缺失部分,你需要通過(guò)所有層次來(lái)獲得信息,而反向傳播已經(jīng)內(nèi)置于所有的模擬器中,但大腦并非如此。
Abbeel:想象一下,大腦在處理這些局部的目標(biāo)時(shí)有三個(gè)選擇:一是我們想要優(yōu)化的局部目標(biāo)是什么?二是用什么算法來(lái)優(yōu)化它?三是我們將神經(jīng)元連接在一起進(jìn)行學(xué)習(xí)的架構(gòu)是什么?在這三個(gè)問(wèn)題上,我們似乎都還沒(méi)有做得很好。你怎么看?
Hinton:如果你對(duì)認(rèn)知學(xué)習(xí)感興趣,那就非常清楚。
你想要一個(gè)可視主題地圖,一種書(shū)寫(xiě)主題地圖的層次結(jié)構(gòu),架構(gòu)上是局部連接的。對(duì)此,你可以通過(guò)假設(shè)在反電子地圖上某個(gè)位置的東西是由其對(duì)應(yīng)的視神經(jīng)圖決定的,來(lái)解決很多信用分配問(wèn)題。不需深入系統(tǒng),而是使用局部交互、弄清楚像素在其中的作用。
目前,神經(jīng)網(wǎng)絡(luò)所做的是,假設(shè)在每個(gè)局部性上使用相同函數(shù),卷積神經(jīng)網(wǎng)絡(luò)如此,transformer也如此。大腦不一定能做到這點(diǎn),因?yàn)檫@會(huì)涉及權(quán)重共享,且要在每個(gè)地方做完全相同的計(jì)算。而有一種方法能達(dá)到權(quán)重共享的目標(biāo),那就是卷積,我認(rèn)為它在大腦中能起到更有效的作用。
如果你想通過(guò)上下文預(yù)測(cè)同局部提取達(dá)成一致,那么想象一下,有一堆列在做本地預(yù)測(cè),并通過(guò)查看附近的列以獲得其上下文預(yù)測(cè)。你可以把上下文看作是本地預(yù)測(cè)的老師,反之亦然。把上下文中的信息看作是被提煉到本地提取器中。由此可得到的是相互提煉,它們都在為對(duì)方提供教學(xué)信號(hào),這意味著關(guān)于你應(yīng)在一個(gè)地方提取的知識(shí)正被轉(zhuǎn)移到其他地方。
當(dāng)它們?cè)噲D達(dá)成一致,或者想讓不同位置的事物達(dá)成一致,例如希望鼻子和嘴巴同意各自是同一張臉的一部分,那它們都應(yīng)該產(chǎn)生相同的表征,當(dāng)你試圖在不同地方獲得相同表征,就需要允許知識(shí)從一個(gè)地方被提煉到另一個(gè)地方,這與實(shí)際的權(quán)重共享相比有更大的優(yōu)勢(shì)。
顯然,從生物學(xué)角度來(lái)說(shuō),一個(gè)優(yōu)勢(shì)是不同位置的詳細(xì)架構(gòu)無(wú)需相同,另一個(gè)優(yōu)勢(shì)是前端處理無(wú)需相同。
拿視網(wǎng)膜來(lái)說(shuō),不同部分的視網(wǎng)膜有不同大小的感知域,卷積網(wǎng)忽略它們多個(gè)不同的分辨率,并在每個(gè)分辨率上做卷積,但它們無(wú)法執(zhí)行不同的前端處理。而如果從一個(gè)位置提取到另一個(gè)位置,要做的就是從光學(xué)陣列獲得相同函數(shù)在不同位置的表示,此時(shí)在不同的位置對(duì)光學(xué)陣列采取不同的預(yù)處理也可以,即使前端處理不同,但仍可以提煉出表示整個(gè)功能的知識(shí)。
所以,雖然提取比實(shí)際顯示權(quán)重效率低,但它更靈活,在神經(jīng)系統(tǒng)上更可信。這也是我一年前提出一個(gè)重要看法,即必須有類(lèi)似權(quán)重共享的技巧來(lái)提高效率,但如果你試圖讓相鄰事物達(dá)成一致,那本地提取就會(huì)起作用。
Abbeel:既然大腦的方式不同,我們是否應(yīng)該繼續(xù)用另一種方式來(lái)考慮權(quán)重共享,還是說(shuō)我們不應(yīng)該繼續(xù)權(quán)重共享?
Hinton:我認(rèn)為應(yīng)該繼續(xù)在卷積網(wǎng)中做卷積的事情,在transformer中共享權(quán)重,通過(guò)共享權(quán)重來(lái)共享知識(shí)。要記住,大腦分享知識(shí)不是通過(guò)共享權(quán)重,而是通過(guò)共享從輸入到輸出的功能,利用提取來(lái)傳遞知識(shí)。
2
人腦尖峰神經(jīng)元 vs. GPU人工神經(jīng)元
Abbeel:現(xiàn)在還有一個(gè)話題被廣泛談?wù)摚竽X與當(dāng)前神經(jīng)網(wǎng)絡(luò)很不同,神經(jīng)元是用尖峰信號(hào)工作的,跟我們GPU中的人工神經(jīng)元存在很大的差異。我很好奇你對(duì)這個(gè)問(wèn)題的看法,這只是一個(gè)工程上的差異,還是我們可能需要更多知識(shí)來(lái)更好理解?
Hinton:這不僅僅是工程上的不同。一旦我們理解了為什么硬件這么出色,就能理解它對(duì)大腦地理標(biāo)記單位視網(wǎng)膜是敏感的。例如,視網(wǎng)膜不使用尖峰神經(jīng)元,有大量非尖峰神經(jīng)的處理。一旦理解了大腦皮層的運(yùn)作原因,我們就會(huì)發(fā)現(xiàn)這是生物學(xué)的正確做法。我認(rèn)為這取決于學(xué)習(xí)算法是如何得到尖峰神經(jīng)元網(wǎng)絡(luò)的梯度,但目前沒(méi)有人真正知道。
關(guān)于尖峰神經(jīng)元的問(wèn)題,往往會(huì)出現(xiàn)兩種截然不同的決策:它在什么時(shí)候會(huì)出現(xiàn)尖峰,以及它會(huì)不會(huì)出現(xiàn)尖峰。這就是離散決策。人們想出各種替代函數(shù)來(lái)試圖優(yōu)化系統(tǒng)。
2000年,Andy Brown和我有一篇關(guān)于嘗試學(xué)習(xí)尖峰玻耳茲曼機(jī)的論文,如果有一個(gè)適合尖峰碼的學(xué)習(xí)算法就太棒了,我想這是阻礙尖峰神經(jīng)元硬件發(fā)展的主要原因。
許多人已經(jīng)意識(shí)到可以用這種方式制造更節(jié)能的硬件,并且也構(gòu)建了巨大的系統(tǒng),但真正欠缺的是一個(gè)出色的學(xué)習(xí)結(jié)果。因此我認(rèn)為,在得到一個(gè)好的學(xué)習(xí)算法之前,我們將無(wú)法真正利用尖峰神經(jīng)元做事情。
因此,當(dāng)你采取一個(gè)標(biāo)準(zhǔn)的人工神經(jīng)元時(shí),只需要問(wèn):它是否能分辨輸入的兩個(gè)值是否相同?不能。但當(dāng)你使用尖峰神經(jīng)元時(shí),就很容易建立一個(gè)系統(tǒng),兩個(gè)尖峰在同時(shí)到達(dá),它們就會(huì)放電,不同時(shí)間到達(dá)則不會(huì)。因此,使用峰值時(shí)間似乎是一個(gè)衡量一致性的好方法。
正如生物系統(tǒng),你之所以可以看到方向、聲音,來(lái)自于信號(hào)到達(dá)兩只耳朵的延時(shí),如果拿一英尺來(lái)說(shuō),光大約是一納秒,而第一個(gè)聲音大約是一毫秒。但如果我將東西在你側(cè)面移動(dòng)幾英寸,到兩只耳朵的時(shí)間延遲差異,到兩只耳朵的路徑長(zhǎng)度只有一英寸的一小部分,即信號(hào)到兩只耳朵的時(shí)間差只有一毫秒。因此我們對(duì)30毫秒的時(shí)間很敏感,以便從聲音中獲得立體聲。我們通過(guò)兩個(gè)軸突(不同方向尖峰傳遞)來(lái)做到這一點(diǎn),一個(gè)來(lái)自一個(gè)耳朵,一個(gè)來(lái)自另一個(gè)耳朵,當(dāng)尖峰同時(shí)到達(dá),就有細(xì)胞發(fā)出信號(hào)。
因?yàn)榧夥鍟r(shí)間可以被用來(lái)做非常敏感的事情,那當(dāng)它的精確時(shí)間沒(méi)被使用時(shí),將是件令人驚訝的事。長(zhǎng)時(shí)間以來(lái),我一直認(rèn)為,如果你能用尖峰時(shí)間來(lái)檢測(cè)自監(jiān)督學(xué)習(xí)等方面的一致性,或者說(shuō),我提取了你的嘴巴和鼻子的信息,從嘴巴和鼻子來(lái)預(yù)測(cè)你整個(gè)面部,當(dāng)你的嘴巴和鼻子能正確組成一個(gè)面部,這些預(yù)測(cè)就會(huì)一致。如果能用尖峰時(shí)間來(lái)觀察這些預(yù)測(cè)是否一致就更好了,但很難做到,因?yàn)槲覀儾恢馈⒁矝](méi)有一個(gè)好的算法來(lái)訓(xùn)練網(wǎng)絡(luò),就像神經(jīng)元一樣。
Abbeel:你剛才是說(shuō)視網(wǎng)膜不使用所有尖峰神經(jīng)元?大腦有兩種類(lèi)型的神經(jīng)元,有些更像我們的人工神經(jīng)元,有些則是尖峰神經(jīng)元?
Hinton:我不確定視網(wǎng)膜是否更像人工神經(jīng)元,但可以肯定的是,大腦新皮層有尖峰神經(jīng)元,這是它的主要交流模式,發(fā)送尖峰從一個(gè)參數(shù)到另一個(gè)參數(shù)細(xì)胞。
我有一個(gè)很好的論點(diǎn):大腦有非常多參數(shù),和我們使用的典型神經(jīng)網(wǎng)絡(luò)相比沒(méi)有太多的數(shù)據(jù),這種狀態(tài)下有可能過(guò)度擬合,除非使用強(qiáng)大的正則化。一個(gè)好的正則化技術(shù)是每次你使用一個(gè)神經(jīng)網(wǎng)絡(luò),你忽略了一大堆的單元,因此可能也忽略神經(jīng)元正在發(fā)送尖峰的事實(shí)。它們真正交流的是潛在的泊松速率。我們假設(shè)它是傳遞的。這個(gè)過(guò)程是有代價(jià)的,它隨機(jī)發(fā)送脈沖,這個(gè)過(guò)程中速率是變化的,由輸入到神經(jīng)元的信息決定,你可能會(huì)想要把真實(shí)值的速率從一個(gè)神經(jīng)元發(fā)送到另一個(gè),當(dāng)你想做很多正則化,可以把真實(shí)值的速率加上一些噪聲,增加噪音的一種方法是使用會(huì)增加很多噪音的脈沖,大多數(shù)情況下就是退出的動(dòng)機(jī)。
當(dāng)你觀察任何一個(gè)時(shí)間窗口,大多數(shù)神經(jīng)元都不參與任何事情,你可以把尖峰看作是一個(gè)代表性的潛在個(gè)人比率。這聽(tīng)起來(lái)非常糟糕,因?yàn)樗茑须s。但一旦你理解了正則化,這會(huì)是個(gè)非常好的主意。
所以我仍然對(duì)這個(gè)想法情有獨(dú)鐘,但實(shí)際上我們根本沒(méi)有使用尖峰計(jì)時(shí)。它只是使用非常嘈雜的個(gè)人速率表示來(lái)成為一個(gè)好的正則化器,而我有點(diǎn)像在兩者之間切換。有些年我認(rèn)為神經(jīng)網(wǎng)絡(luò)是確定性的。我們應(yīng)該有確定性的神經(jīng)網(wǎng)絡(luò),這是再往后幾年的東西。我認(rèn)為這是一個(gè)5年的周期。最好的隨機(jī)性也非常重要,它會(huì)改變一切。因此,玻爾茲曼機(jī)本質(zhì)上是隨機(jī)的,這對(duì)它們來(lái)說(shuō)很重要。但重要的是,不要完全致力于這兩種情況,而是要對(duì)這兩種情況持開(kāi)放態(tài)度。
現(xiàn)在重要的是,更多地考慮你剛才所說(shuō)尖峰神經(jīng)元的重要性,并弄清楚如何有效地訓(xùn)練尖峰神經(jīng)元網(wǎng)絡(luò)。
Abbeel:如果我們現(xiàn)在說(shuō)不要擔(dān)心訓(xùn)練的部分(考慮到它看起來(lái)更有效率),難道人們不想分布純粹的推理芯片,也即是分別進(jìn)行有效的預(yù)訓(xùn)練,然后將其編譯到尖峰神經(jīng)元芯片上,使它具有非常低功率的推理能力?
Hinton:很多人都想到了這一點(diǎn),這非常明智,它可能在進(jìn)化的道路上使用神經(jīng)網(wǎng)絡(luò)進(jìn)行推理是有效的,并且所有人都在這樣做,也被證明是更有效的,不同的公司已經(jīng)生產(chǎn)了這些大的尖峰系統(tǒng)。
一旦你在做這些事情,你會(huì)對(duì)推理越來(lái)越感興趣,可以用一種方式來(lái)學(xué)習(xí)在尖峰時(shí)期更多利用可用的能量。所以你可以想象有一個(gè)系統(tǒng),你學(xué)習(xí)時(shí)是使用輔助設(shè)備,不是模擬硬件,例如不在這個(gè)低能量的硬件上,但你可以將其轉(zhuǎn)移到低能量的硬件上就很好。
3
AlexNet的誕生背景
Abbeel:什么是AlexNet?它是如何產(chǎn)生的?你從研究受限玻爾茲曼機(jī)器到試圖理解大腦如何工作的路徑是什么?
Hinton:我想說(shuō),你可能突然間就證明了,更傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法確實(shí)行得通。
大約在2005年,我被可以使用成堆的限制電壓機(jī)器來(lái)預(yù)先訓(xùn)練特征檢測(cè)器的想法迷住了,它可以更容易地讓Backdrop工作,結(jié)果是有足夠的數(shù)據(jù)。后來(lái),因?yàn)镕aith Ali和她的圖像識(shí)別團(tuán)隊(duì)有了足夠的數(shù)據(jù),盡管預(yù)訓(xùn)練即將回歸,但不再需要預(yù)訓(xùn)練。
GPT-3有預(yù)訓(xùn)練,預(yù)訓(xùn)練也是個(gè)好主意,可一旦我們發(fā)現(xiàn)你可以預(yù)訓(xùn)練,這能使背景工作更好,對(duì)語(yǔ)音有很大的幫助,就像George John 和 Abdul Rahman Muhammad在2009年做的那樣。此后,我小組的研究生 Alex 開(kāi)始將相同的想法應(yīng)用于視覺(jué),很快我們發(fā)現(xiàn),當(dāng)你有ImageNet的數(shù)據(jù)時(shí),你并不需要預(yù)訓(xùn)練。
我記得有一天Ilya來(lái)到實(shí)驗(yàn)室說(shuō):「看,現(xiàn)在我們已經(jīng)有了語(yǔ)音識(shí)別,這東西真的很管用 ,我們必須在其他人之前做出ImageNet!笿anella也走進(jìn)實(shí)驗(yàn)室表達(dá)了這樣的想法,他的學(xué)生和博士后也說(shuō):「哇,但是我正在忙其他的事情!故聦(shí)上他沒(méi)有辦法讓誰(shuí)致力于此。后來(lái)他說(shuō)服了Alex通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理來(lái)完成這個(gè)實(shí)驗(yàn),數(shù)據(jù)都被預(yù)處理成他所需要的。
這只是背景。我想說(shuō)的是,很多研究人員都知道這個(gè),但可能不是每個(gè)人都知道Alex的結(jié)果和Ilya之前在ImageNet圖像識(shí)別競(jìng)賽上的工作相比錯(cuò)誤率降低了一半。這就是為什么每個(gè)人都從手工設(shè)計(jì)的方法轉(zhuǎn)向計(jì)算機(jī)視覺(jué),嘗試直接編程。
4
從學(xué)術(shù)界到谷歌
Abbeel:哪一刻標(biāo)志著你的職業(yè)生涯發(fā)生了重大變化?從學(xué)術(shù)界到谷歌,對(duì)你產(chǎn)生了什么影響?為什么會(huì)發(fā)生這種轉(zhuǎn)變?
Hinton:我有一個(gè)殘疾的兒子需要撫養(yǎng),所以需要一大筆錢(qián),一個(gè)方法是教課。2012年,我教了一門(mén)神經(jīng)網(wǎng)絡(luò)的課程。但他們的軟件不是很好,所以做起來(lái)非常煩躁。每周一章,我必須給他們提供教學(xué)視頻,會(huì)有一大堆人要看。有時(shí)上完課第二天Yoshua Bengio會(huì)問(wèn):「你為什么(在課上)這么說(shuō)?」
我與多倫多大學(xué)最初的協(xié)議是,如果從這些課程中賺到任何錢(qián),我希望大學(xué)將錢(qián)與教授們分享,他們沒(méi)有明確說(shuō)明具體的分配方式,但人們認(rèn)為大概在50%或類(lèi)似,我對(duì)此沒(méi)有意見(jiàn)。但在我開(kāi)始授課后,教務(wù)長(zhǎng)在沒(méi)有咨詢(xún)我或其他人的情況下做出了一個(gè)單方面的決定:如果資金來(lái)自課程平臺(tái),大學(xué)會(huì)拿走所有的錢(qián),而教授什么都拿不到。我讓學(xué)校幫我準(zhǔn)備視頻,制作視頻的人會(huì)來(lái)問(wèn)我,你知道制作視頻有多貴嗎?
這讓我對(duì)學(xué)校感到非常生氣,所以我開(kāi)始考慮教授之外的其他職業(yè)選擇。那個(gè)時(shí)候,我們突然引起了各種公司的興趣,他們要招募我們,要么是給予大額撥款,要么是資助創(chuàng)業(yè)。通常我會(huì)說(shuō)不,我不想試圖從研究中賺取額外的錢(qián),但那次學(xué)校騙了我錢(qián)的經(jīng)歷,讓我想找一些其他的方式來(lái)賺錢(qián)。
Abbeel:當(dāng)時(shí)的拍賣(mài)會(huì)是一種怎樣的場(chǎng)景?
Hinton:那是在NIPS會(huì)議上,Terry在一個(gè)賭場(chǎng)里組織了一些小活動(dòng)。在酒店地下室煙霧繚繞的房間里,有人在樓上賭博,感覺(jué)就像在拍電影。我們完全不知道自己值多少錢(qián)。我咨詢(xún)了一位律師,他說(shuō)我可以聘請(qǐng)專(zhuān)業(yè)的談判人員,或者直接進(jìn)行拍賣(mài)。
據(jù)我所知,這是第一次有像這樣的小團(tuán)體進(jìn)行拍賣(mài)。我們通過(guò)Gmail進(jìn)行拍賣(mài),人們必須把他們的出價(jià)用電子郵件發(fā)給我,并附上電子郵件的時(shí)間戳。價(jià)格一直在漲,一開(kāi)始是50萬(wàn)美元,之后是100萬(wàn)美元,這很令人興奮,我們發(fā)現(xiàn)自己的價(jià)值比我們想象的要高得多。
回想起來(lái),我們也許可以得到更多,但我們已經(jīng)看到了一個(gè)我們認(rèn)為是天文數(shù)字的金額。我們都想為谷歌工作,所以我們停止了拍賣(mài),并確定加入谷歌。
Abbeel:據(jù)我了解,你今天還在谷歌。
Hinton:我現(xiàn)在還在谷歌工作,已經(jīng)9年了。我喜歡谷歌的主要原因是,核心團(tuán)隊(duì)非常好。
我和Jeff Dean相處得非常好,他非常聰明,而我是非常直截了當(dāng)?shù)摹KM易龅恼俏蚁胱龅氖虑,也就是基礎(chǔ)研究。他認(rèn)為我應(yīng)該做的是嘗試提出全新的算法,這就是我想做的,非常適配。我不擅長(zhǎng)管理一個(gè)大團(tuán)隊(duì),去提高百分之一的語(yǔ)音識(shí)別能力。但我很樂(lè)意,最好是可以再一次徹底改變這個(gè)領(lǐng)域。
Abbeel:你曾是多倫多大學(xué)的計(jì)算機(jī)科學(xué)教授,但你從來(lái)沒(méi)有獲得過(guò)計(jì)算機(jī)科學(xué)學(xué)位,你獲得過(guò)心理學(xué)學(xué)位,而且你還曾做過(guò)木匠。你是如何從學(xué)習(xí)心理學(xué)、到成為一名木匠、再到進(jìn)入人工智能領(lǐng)域的?
Hinton:在劍橋的最后一年,我過(guò)得很艱難?荚嚭笪揖屯藢W(xué)當(dāng)了一名木匠,我喜歡做木工活勝過(guò)其他任何事。高中時(shí)上完所有的課程,晚上就可以呆在家里做木工活,所以我成為了一名木匠,做了大約6個(gè)月。
但我不可能以做木匠為生。我曾是一名木匠兼裝修師,在裝修的過(guò)程中賺了錢(qián),我很享受做木工活的樂(lè)趣。直到我遇到了一個(gè)真正的木匠,才意識(shí)到我在木工方面完全沒(méi)有希望。他可以用手鋸把一塊木頭完全切成方形。和他比起來(lái),我太絕望了,我決定還是回到人工智能。
Abbeel:據(jù)我所知,你的博士是在愛(ài)丁堡大學(xué)攻讀的。
Hinton:是的,我去那里攻讀神經(jīng)網(wǎng)絡(luò)的博士學(xué)位,和著名教授Christopher Longa Higgins一起做研究,他真的非常出色,在30多歲時(shí)就因?yàn)檠芯砍雠饸浠锏慕Y(jié)構(gòu)而差點(diǎn)獲得諾貝爾獎(jiǎng)。他對(duì)神經(jīng)網(wǎng)絡(luò)以及與全息圖的關(guān)系很感興趣,大約在我到達(dá)愛(ài)丁堡的那天,他對(duì)神經(jīng)網(wǎng)絡(luò)失去興趣,因?yàn)樽x了Winograd的論文而完全改變看法,認(rèn)為神經(jīng)網(wǎng)絡(luò)是錯(cuò)誤的思考方式。盡管他完全不同意我所做的事情,但他并沒(méi)有阻止我做這件事。