亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現(xiàn)在的位置是:首頁 > 技術(shù)閱讀 >  影響堪比登月!谷歌等探索深度學(xué)習(xí)新理論藍(lán)圖,讓神經(jīng)網(wǎng)絡(luò)更深更窄

影響堪比登月!谷歌等探索深度學(xué)習(xí)新理論藍(lán)圖,讓神經(jīng)網(wǎng)絡(luò)更深更窄

時(shí)間:2024-01-14

一個(gè)關(guān)于計(jì)算機(jī)如何學(xué)習(xí)的新理論的藍(lán)圖正在形成,其影響甚至比登月更大!研究人員正試圖解釋神經(jīng)網(wǎng)絡(luò)工作原理,并保證如果以規(guī)定的方式構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),它就能夠執(zhí)行特定的任務(wù)。

深度學(xué)習(xí)需要更多的理論!

這是學(xué)術(shù)界的一個(gè)共識。神經(jīng)網(wǎng)絡(luò)十分強(qiáng)大,但往往不可預(yù)測。

現(xiàn)在,谷歌大腦、FAIR、德州農(nóng)工大學(xué)等的數(shù)學(xué)家們試圖深究神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ),開始揭示神經(jīng)網(wǎng)絡(luò)的形式如何影響其功能。

我們對神經(jīng)網(wǎng)絡(luò)幾乎一無所知

設(shè)計(jì)一座摩天大樓時(shí),我們會要求它符合規(guī)范:塔臺要能支撐一定程度的重量,并且要能承受一定強(qiáng)度的地震。

但是,對于現(xiàn)代世界最重要的技術(shù)之一,我們實(shí)際上是在盲目地建造。我們使用各種不同的設(shè)計(jì),使用不同的設(shè)置進(jìn)行修補(bǔ),但在將它拿出來進(jìn)行測試運(yùn)行之前,我們并不真正知道它能做什么,也不知道它會在哪個(gè)地方失敗。

這項(xiàng)技術(shù)就是神經(jīng)網(wǎng)絡(luò),它是當(dāng)今最先進(jìn)的人工智能系統(tǒng)的基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)正越來越多地進(jìn)入社會的核心領(lǐng)域:它們通過社交媒體的信息流決定了我們對世界的了解,它們幫助醫(yī)生診斷疾病,它們甚至影響一個(gè)被判犯罪的人是否要被收監(jiān)。

然而,“最接近事實(shí)的情況是,我們對神經(jīng)網(wǎng)絡(luò)的實(shí)際運(yùn)作方式幾乎一無所知,也不知道什么才是真正有洞察力的理論,” 德州農(nóng)工大學(xué)數(shù)學(xué)家、FAIR 的訪問科學(xué)家 Boris Hanin 說。

他將這種情況與另一種革命性技術(shù)的發(fā)展進(jìn)行類比:蒸汽機(jī)。最初,蒸汽機(jī)除了抽水之外沒有別的用處。后來,蒸汽機(jī)開始為火車提供動力,這可能是現(xiàn)在復(fù)雜的神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到的水平。再后來,科學(xué)家和數(shù)學(xué)家們發(fā)展了熱力學(xué)理論,得以準(zhǔn)確地理解任何類型的發(fā)動機(jī)內(nèi)部的運(yùn)作方式。最終,這些知識將人類帶到了月球。

“首先,你要有很棒的工程,你要有一些很棒的火車,然后你需要一些理論上的理解才能造出火箭和飛船,”Hanin 說。

在龐大的神經(jīng)網(wǎng)絡(luò)研究社區(qū)中,有一小群具有數(shù)學(xué)意識的研究人員正試圖構(gòu)建神經(jīng)網(wǎng)絡(luò)理論 —— 一個(gè)可以解釋神經(jīng)網(wǎng)絡(luò)是如何工作,并保證如果你以規(guī)定的方式構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò),它就能夠執(zhí)行特定的任務(wù)的理論。

這項(xiàng)工作仍處于早期階段,但在去年,研究人員已經(jīng)發(fā)表了幾篇論文,詳細(xì)闡述了神經(jīng)網(wǎng)絡(luò)中形式和功能之間的關(guān)系。這項(xiàng)工作一直深究神經(jīng)網(wǎng)絡(luò)的基礎(chǔ),表明在你能證明神經(jīng)網(wǎng)絡(luò)可以駕駛汽車之前,你需要證明它們能夠做乘法運(yùn)算。

如何設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的目標(biāo)是模仿人類的大腦 —— 思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個(gè)觀點(diǎn)中,思維的復(fù)雜性是由你可以利用的更小抽象的范圍,以及你可以將低級抽象組合成高級抽象的次數(shù)來衡量的 —— 就像我們學(xué)習(xí)區(qū)分狗和鳥的方式一樣。

“對于人類來說,如果你正在學(xué)習(xí)如何識別一只狗,你就要學(xué)會識別四條腿,它們是毛茸茸的,” 康奈爾大學(xué)計(jì)算機(jī)科學(xué)博士生、谷歌大腦研究員 Maithra Raghu 說:“理想情況下,我們希望我們的神經(jīng)網(wǎng)絡(luò)同樣能夠這樣做?!?/span>

Maithra Raghu, 谷歌大腦成員,致力于尋找解釋神經(jīng)網(wǎng)絡(luò)如何運(yùn)作的原理 (photo: Arun Chaganty)

抽象對于人類大腦來說是天性。神經(jīng)網(wǎng)絡(luò)必須學(xué)會抽象。就像大腦一樣,神經(jīng)網(wǎng)絡(luò)是由被稱為 “神經(jīng)元” 的構(gòu)建塊組成的,這些構(gòu)建塊以不同的方式連接在一起。(神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元受到大腦神經(jīng)元的啟發(fā),但并不直接模仿大腦神經(jīng)元。) 每個(gè)神經(jīng)元可能代表網(wǎng)絡(luò)在每個(gè)抽象層次上考慮的一個(gè)屬性,或多個(gè)屬性的組合。

在將這些神經(jīng)元連接在一起時(shí),工程師們有很多選擇。他們必須決定這個(gè)網(wǎng)絡(luò)應(yīng)該有多少層神經(jīng)元 (或者它應(yīng)該有多 “深”)。例如,假設(shè)有一個(gè)神經(jīng)網(wǎng)絡(luò),它的任務(wù)是識別圖像中的物體。圖像在第一層被輸入系統(tǒng)。在下一層,網(wǎng)絡(luò)中可能有只是簡單地檢測圖像中的邊緣的神經(jīng)元。再下一層結(jié)合線條來識別圖像中的曲線。然后再下一層,將曲線組合成形狀和紋理。最后一層處理形狀和紋理,得出它看到圖像中有什么的結(jié)論:長毛猛犸象!

“這里的想法是,每一層都結(jié)合了前一層的幾個(gè)方面。一個(gè)圓在許多不同的地方是曲線,一條曲線在許多不同的地方是直線,” 賓夕法尼亞大學(xué)的數(shù)學(xué)家 David Rolnick 說。

工程師還必須決定每一層的 “寬度”,它對應(yīng)于網(wǎng)絡(luò)在每個(gè)抽象級別上考慮的不同特性的數(shù)量。在圖像識別的情況下,層的寬度是它在每個(gè)層上考慮的線、曲線或形狀的類型的數(shù)量。

除了網(wǎng)絡(luò)的深度和寬度之外,還可以選擇如何在層內(nèi)和層間連接神經(jīng)元,以及為每個(gè)連接賦予多少權(quán)重。

因此,如果你有一個(gè)特定的任務(wù),你怎么知道哪個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)能最好地完成這個(gè)任務(wù)呢?

有一些寬泛的經(jīng)驗(yàn)法則。比如說,對于圖像相關(guān)的任務(wù),工程師通常使用 “卷積” 神經(jīng)網(wǎng)絡(luò),這種網(wǎng)絡(luò)的特點(diǎn)是層與層之間相同的連接模式不斷重復(fù)。對于自然語言處理任務(wù) —— 比如語音識別或語言生成 —— 工程師們發(fā)現(xiàn) “循環(huán)” 神經(jīng)網(wǎng)絡(luò)似乎性能最好。在這些網(wǎng)絡(luò)中,神經(jīng)元可以連接到非相鄰的層。

如何設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)

Lucy Reading-Ikkanda/Quanta Magazine

然而,除了這些一般指導(dǎo)原則之外,工程師們很大程度上還必須在依賴實(shí)驗(yàn)證據(jù):他們要運(yùn)行 1000 個(gè)不同的神經(jīng)網(wǎng)絡(luò),然后觀察哪一個(gè)能夠完成任務(wù)。

“這些選擇往往是在實(shí)踐中反復(fù)試驗(yàn)后做出的,” Hanin 說:“這是一種很艱難的方法,因?yàn)橛袩o限多的選擇,一個(gè)人真的不知道那個(gè)選擇是最好的?!?/span>

一種更好的方法是減少反復(fù)試驗(yàn),多預(yù)先了解給定的神經(jīng)網(wǎng)絡(luò)架構(gòu)會帶來什么。最近發(fā)表的幾篇論文將這個(gè)領(lǐng)域推向了這個(gè)方向。

“可以這么說,這項(xiàng)工作試圖開發(fā)一本設(shè)計(jì)正確神經(jīng)網(wǎng)絡(luò)的食譜。如果你知道你想從網(wǎng)絡(luò)中獲得什么,那么這就是這個(gè)網(wǎng)絡(luò)的配方,”Rolnick 說。

讓神經(jīng)網(wǎng)絡(luò)無限窄、無限深

神經(jīng)網(wǎng)絡(luò)架構(gòu)最早的一個(gè)重要理論保證出現(xiàn)在 30 年前。1989 年,計(jì)算機(jī)科學(xué)家證明,如果一個(gè)神經(jīng)網(wǎng)絡(luò)只有一個(gè)計(jì)算層,但這一層有無限數(shù)量的神經(jīng)元,它們之間有無限的連接,那么這個(gè)網(wǎng)絡(luò)將能夠執(zhí)行你要求它做的任何任務(wù)。

這是一個(gè)籠統(tǒng)的陳述,結(jié)果相當(dāng)直觀,但不怎么有用。這就好比說,如果你能在一張圖像中識別出無限多的線條,你就可以只用一個(gè)層來區(qū)分所有的對象。這在原則上可能是正確的,但在實(shí)踐中,祝您好運(yùn)。

今天的研究人員將這種寬而平的網(wǎng)絡(luò)描述為 “富有表現(xiàn)力的”(expressive),這意味著它們理論上能夠在可能的輸入 (例如圖像) 和輸出 (例如圖像描述) 之間捕獲更豐富的一組連接。然而,這些網(wǎng)絡(luò)是極其難以訓(xùn)練的,這意味著幾乎不可能教他們?nèi)绾螌?shí)際產(chǎn)生這些輸出。它們的計(jì)算量也超過了任何計(jì)算機(jī)可以處理的程度。

德州農(nóng)工大學(xué)的數(shù)學(xué)家 Boris Hanin 研究了神經(jīng)網(wǎng)絡(luò)中深度和寬度之間的權(quán)衡(Intel AI One Tree Studio)

最近,研究人員一直試圖弄清楚他們能在多大程度上將神經(jīng)網(wǎng)絡(luò)推向另一個(gè)方向 —— 通過使神經(jīng)網(wǎng)絡(luò)更窄 (每層的神經(jīng)元更少) 和更深 (整體的層數(shù)更多)。這樣,也許你只需要挑選 100 條不同的線,但可以利用連接把這 100 條線變成 50 條曲線,然后把它們組合成 10 種不同的形狀,這些形狀可以為你提供識別大多數(shù)物體所需的所有構(gòu)建塊。

麻省理工學(xué)院的 Rolnick 和 Max Tegmark 去年發(fā)表了一篇題為 The power of deeper networks for expressing natural functions 的論文,證明通過增加深度和減少寬度,可以用指數(shù)級更少的神經(jīng)元來執(zhí)行同樣的功能。他們表明,如果你正在建模的情況有 100個(gè)輸入變量,你可以使用一層中 2 的 100 次方個(gè)神經(jīng)元,或兩層中 2 的 10 次方個(gè)神經(jīng)元獲得同樣的可靠性。

“神經(jīng)網(wǎng)絡(luò)中 depth 這個(gè)概念與這樣一種想法有關(guān),即你可以通過按順序做許多簡單的事情來表達(dá)一些復(fù)雜的事情,”Rolnick 說:“這就像一條裝配線。”

Rolnick 和 Tegmark 通過讓神經(jīng)網(wǎng)絡(luò)執(zhí)行一個(gè)簡單的任務(wù)來證明深度的效用:乘法多項(xiàng)式函數(shù)。(這些方程的特征是變量取自然數(shù)的指數(shù),比如 y = x3 + 1) 他們通過向網(wǎng)絡(luò)展示方程及其乘積的例子來訓(xùn)練網(wǎng)絡(luò)。然后,他們要求這些網(wǎng)絡(luò)計(jì)算他們之前沒有見過的方程式的乘積。結(jié)果顯示,相比更淺的網(wǎng)絡(luò),更深的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個(gè)任務(wù)使用的神經(jīng)元要少得多。

雖然乘法并不是一項(xiàng)轟動世界的任務(wù),但 Rolnick 表示,這篇論文提出了一個(gè)重要的觀點(diǎn):“如果一個(gè)淺層的網(wǎng)絡(luò)連乘法都不會做,那么我們就不應(yīng)該在任何事情上相信它?!?/span>

賓夕法尼亞大學(xué)數(shù)學(xué)家 David Rolnick 證明,增加網(wǎng)絡(luò)的深度可以讓網(wǎng)絡(luò)以更少的神經(jīng)元完成任務(wù)。(Stephanie Ku)

其他研究人員一直在探索神經(jīng)網(wǎng)絡(luò)所需的最小寬度。9 月底,曾任俄克拉荷馬州立大學(xué)數(shù)學(xué)家、現(xiàn)為賽諾菲制藥公司研究員的 Jesse Johnson 證明,在某個(gè)特定點(diǎn)上,再大的深度也無法彌補(bǔ)寬度的不足。

為了理解他的結(jié)論,讓我們想象一下牧場里的綿羊,但這些是朋克搖滾羊:他們的羊毛被染成了各種各樣的顏色。你的神經(jīng)網(wǎng)絡(luò)的任務(wù)是在所有相同顏色的羊周圍畫一個(gè)框。這個(gè)任務(wù)類似于圖像分類:網(wǎng)絡(luò)有一個(gè)圖像集 (表示為高維空間中的點(diǎn)),它需要將相似的圖像分組在一起。

Johnson 證明,當(dāng)層的寬度小于或等于輸入的數(shù)量時(shí),神經(jīng)網(wǎng)絡(luò)就會在這個(gè)任務(wù)中失敗。因此,對于朋克搖滾羊這個(gè)任務(wù)來說,每只羊都可以用兩個(gè)輸入來描述:一個(gè) x 坐標(biāo)和一個(gè) y坐標(biāo),用來指定它在牧場的位置。然后,神經(jīng)網(wǎng)絡(luò)給每只羊標(biāo)上顏色標(biāo)簽,并在相同顏色的羊周圍畫上邊框。在這種情況下,每層需要三個(gè)或更多的神經(jīng)元才能解決這個(gè)問題。

更具體地說,Johnson 證明如果寬度與變量之間的比率沒有了,神經(jīng)網(wǎng)絡(luò)將無法實(shí)現(xiàn)一個(gè)閉環(huán) —— 比如說,如果所有紅色的羊聚集在牧場中央,神經(jīng)網(wǎng)絡(luò)將需要繪制出這樣的循環(huán)。Johnson 說:“如果所有層中沒有任何一層的神經(jīng)元數(shù)量比輸入維數(shù)更大,那么無論添加多少層,函數(shù)都無法創(chuàng)建某些形狀。”

Johnson 他們的論文、以及更多這樣的論文正開始構(gòu)建神經(jīng)網(wǎng)絡(luò)理論的雛形。目前,研究人員只能對架構(gòu)和函數(shù)之間的關(guān)系做出非常基本的斷言,而這些斷言與神經(jīng)網(wǎng)絡(luò)所承擔(dān)的任務(wù)的數(shù)量相比只占很小的比例。

因此,盡管神經(jīng)網(wǎng)絡(luò)理論不會很快改變系統(tǒng)構(gòu)建的方式,但一個(gè)關(guān)于計(jì)算機(jī)如何學(xué)習(xí)的新理論的藍(lán)圖正在形成 —— 一個(gè)將人類帶上更偉大旅程的藍(lán)圖,其影響甚至比將人類帶上月球更大。

參考文獻(xiàn):

The power of deeper networks for expressing natural functions 

https://arxiv.org/abs/1705.05502

來源:quantamagazine

作者:Kevin Hartnett  編輯:肖琴

文章來源:新智元


IEEE Spectrum

《科技縱覽》

官方微信公眾平臺



往期推薦

科學(xué)家在試管中創(chuàng)建由DNA構(gòu)成的人工神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)告訴我,誰是世界上最「美」的人?

憶阻器驅(qū)動的快速學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)

主站蜘蛛池模板: 桓仁| 朔州市| 榆林市| 太保市| 会东县| 游戏| 敦化市| 青海省| 晋城| 宁晋县| 胶州市| 新竹市| 连城县| 尖扎县| 广安市| 平果县| 崇州市| 偏关县| 麻栗坡县| 咸丰县| 盐池县| 乐亭县| 和顺县| 晋宁县| 仙游县| 和静县| 乃东县| 荔波县| 台东市| 阿拉尔市| 甘泉县| 会泽县| 赤水市| 土默特左旗| 宜章县| 木兰县| 涿鹿县| 廊坊市| 连山| 枝江市| 白河县|