久精品国产欧美,琪琪久久久久日韩精品,日韩成人网免费视频

一個(gè)關(guān)于計(jì)算機(jī)如何學(xué)習(xí)的新理論的藍(lán)圖正在形成，其影響甚至比登月更大！研究人員正試圖解釋神經(jīng)網(wǎng)絡(luò)工作原理，并保證如果以規(guī)定的方式構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)，它就能夠執(zhí)行特定的任務(wù)。

深度學(xué)習(xí)需要更多的理論！

這是學(xué)術(shù)界的一個(gè)共識。神經(jīng)網(wǎng)絡(luò)十分強(qiáng)大，但往往不可預(yù)測。

現(xiàn)在，谷歌大腦、FAIR、德州農(nóng)工大學(xué)等的數(shù)學(xué)家們試圖深究神經(jīng)網(wǎng)絡(luò)的理論基礎(chǔ)，開始揭示神經(jīng)網(wǎng)絡(luò)的形式如何影響其功能。

我們對神經(jīng)網(wǎng)絡(luò)幾乎一無所知

設(shè)計(jì)一座摩天大樓時(shí)，我們會要求它符合規(guī)范：塔臺要能支撐一定程度的重量，并且要能承受一定強(qiáng)度的地震。

但是，對于現(xiàn)代世界最重要的技術(shù)之一，我們實(shí)際上是在盲目地建造。我們使用各種不同的設(shè)計(jì)，使用不同的設(shè)置進(jìn)行修補(bǔ)，但在將它拿出來進(jìn)行測試運(yùn)行之前，我們并不真正知道它能做什么，也不知道它會在哪個(gè)地方失敗。

這項(xiàng)技術(shù)就是神經(jīng)網(wǎng)絡(luò)，它是當(dāng)今最先進(jìn)的人工智能系統(tǒng)的基礎(chǔ)。神經(jīng)網(wǎng)絡(luò)正越來越多地進(jìn)入社會的核心領(lǐng)域：它們通過社交媒體的信息流決定了我們對世界的了解，它們幫助醫(yī)生診斷疾病，它們甚至影響一個(gè)被判犯罪的人是否要被收監(jiān)。

然而，“最接近事實(shí)的情況是，我們對神經(jīng)網(wǎng)絡(luò)的實(shí)際運(yùn)作方式幾乎一無所知，也不知道什么才是真正有洞察力的理論，” 德州農(nóng)工大學(xué)數(shù)學(xué)家、FAIR 的訪問科學(xué)家 Boris Hanin 說。

他將這種情況與另一種革命性技術(shù)的發(fā)展進(jìn)行類比：蒸汽機(jī)。最初，蒸汽機(jī)除了抽水之外沒有別的用處。后來，蒸汽機(jī)開始為火車提供動力，這可能是現(xiàn)在復(fù)雜的神經(jīng)網(wǎng)絡(luò)已經(jīng)達(dá)到的水平。再后來，科學(xué)家和數(shù)學(xué)家們發(fā)展了熱力學(xué)理論，得以準(zhǔn)確地理解任何類型的發(fā)動機(jī)內(nèi)部的運(yùn)作方式。最終，這些知識將人類帶到了月球。

“首先，你要有很棒的工程，你要有一些很棒的火車，然后你需要一些理論上的理解才能造出火箭和飛船，”Hanin 說。

在龐大的神經(jīng)網(wǎng)絡(luò)研究社區(qū)中，有一小群具有數(shù)學(xué)意識的研究人員正試圖構(gòu)建神經(jīng)網(wǎng)絡(luò)理論 —— 一個(gè)可以解釋神經(jīng)網(wǎng)絡(luò)是如何工作，并保證如果你以規(guī)定的方式構(gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)，它就能夠執(zhí)行特定的任務(wù)的理論。

這項(xiàng)工作仍處于早期階段，但在去年，研究人員已經(jīng)發(fā)表了幾篇論文，詳細(xì)闡述了神經(jīng)網(wǎng)絡(luò)中形式和功能之間的關(guān)系。這項(xiàng)工作一直深究神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)，表明在你能證明神經(jīng)網(wǎng)絡(luò)可以駕駛汽車之前，你需要證明它們能夠做乘法運(yùn)算。

如何設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)的目標(biāo)是模仿人類的大腦 —— 思考大腦的一種方式是將較小的抽象概念加積到更大的抽象概念。在這個(gè)觀點(diǎn)中，思維的復(fù)雜性是由你可以利用的更小抽象的范圍，以及你可以將低級抽象組合成高級抽象的次數(shù)來衡量的 —— 就像我們學(xué)習(xí)區(qū)分狗和鳥的方式一樣。

“對于人類來說，如果你正在學(xué)習(xí)如何識別一只狗，你就要學(xué)會識別四條腿，它們是毛茸茸的，” 康奈爾大學(xué)計(jì)算機(jī)科學(xué)博士生、谷歌大腦研究員 Maithra Raghu 說：“理想情況下，我們希望我們的神經(jīng)網(wǎng)絡(luò)同樣能夠這樣做?！?/span>

Maithra Raghu, 谷歌大腦成員，致力于尋找解釋神經(jīng)網(wǎng)絡(luò)如何運(yùn)作的原理 (photo: Arun Chaganty)

抽象對于人類大腦來說是天性。神經(jīng)網(wǎng)絡(luò)必須學(xué)會抽象。就像大腦一樣，神經(jīng)網(wǎng)絡(luò)是由被稱為 “神經(jīng)元” 的構(gòu)建塊組成的，這些構(gòu)建塊以不同的方式連接在一起。(神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元受到大腦神經(jīng)元的啟發(fā)，但并不直接模仿大腦神經(jīng)元。) 每個(gè)神經(jīng)元可能代表網(wǎng)絡(luò)在每個(gè)抽象層次上考慮的一個(gè)屬性，或多個(gè)屬性的組合。

在將這些神經(jīng)元連接在一起時(shí)，工程師們有很多選擇。他們必須決定這個(gè)網(wǎng)絡(luò)應(yīng)該有多少層神經(jīng)元 (或者它應(yīng)該有多 “深”)。例如，假設(shè)有一個(gè)神經(jīng)網(wǎng)絡(luò)，它的任務(wù)是識別圖像中的物體。圖像在第一層被輸入系統(tǒng)。在下一層，網(wǎng)絡(luò)中可能有只是簡單地檢測圖像中的邊緣的神經(jīng)元。再下一層結(jié)合線條來識別圖像中的曲線。然后再下一層，將曲線組合成形狀和紋理。最后一層處理形狀和紋理，得出它看到圖像中有什么的結(jié)論：長毛猛犸象！

“這里的想法是，每一層都結(jié)合了前一層的幾個(gè)方面。一個(gè)圓在許多不同的地方是曲線，一條曲線在許多不同的地方是直線，” 賓夕法尼亞大學(xué)的數(shù)學(xué)家 David Rolnick 說。

工程師還必須決定每一層的 “寬度”，它對應(yīng)于網(wǎng)絡(luò)在每個(gè)抽象級別上考慮的不同特性的數(shù)量。在圖像識別的情況下，層的寬度是它在每個(gè)層上考慮的線、曲線或形狀的類型的數(shù)量。

除了網(wǎng)絡(luò)的深度和寬度之外，還可以選擇如何在層內(nèi)和層間連接神經(jīng)元，以及為每個(gè)連接賦予多少權(quán)重。

因此，如果你有一個(gè)特定的任務(wù)，你怎么知道哪個(gè)神經(jīng)網(wǎng)絡(luò)架構(gòu)能最好地完成這個(gè)任務(wù)呢？

有一些寬泛的經(jīng)驗(yàn)法則。比如說，對于圖像相關(guān)的任務(wù)，工程師通常使用 “卷積” 神經(jīng)網(wǎng)絡(luò)，這種網(wǎng)絡(luò)的特點(diǎn)是層與層之間相同的連接模式不斷重復(fù)。對于自然語言處理任務(wù) —— 比如語音識別或語言生成 —— 工程師們發(fā)現(xiàn) “循環(huán)” 神經(jīng)網(wǎng)絡(luò)似乎性能最好。在這些網(wǎng)絡(luò)中，神經(jīng)元可以連接到非相鄰的層。

如何設(shè)計(jì)一個(gè)神經(jīng)網(wǎng)絡(luò)

Lucy Reading-Ikkanda/Quanta Magazine

然而，除了這些一般指導(dǎo)原則之外，工程師們很大程度上還必須在依賴實(shí)驗(yàn)證據(jù)：他們要運(yùn)行 1000 個(gè)不同的神經(jīng)網(wǎng)絡(luò)，然后觀察哪一個(gè)能夠完成任務(wù)。

“這些選擇往往是在實(shí)踐中反復(fù)試驗(yàn)后做出的，” Hanin 說：“這是一種很艱難的方法，因?yàn)橛袩o限多的選擇，一個(gè)人真的不知道那個(gè)選擇是最好的?！?/span>

一種更好的方法是減少反復(fù)試驗(yàn)，多預(yù)先了解給定的神經(jīng)網(wǎng)絡(luò)架構(gòu)會帶來什么。最近發(fā)表的幾篇論文將這個(gè)領(lǐng)域推向了這個(gè)方向。

“可以這么說，這項(xiàng)工作試圖開發(fā)一本設(shè)計(jì)正確神經(jīng)網(wǎng)絡(luò)的食譜。如果你知道你想從網(wǎng)絡(luò)中獲得什么，那么這就是這個(gè)網(wǎng)絡(luò)的配方，”Rolnick 說。

讓神經(jīng)網(wǎng)絡(luò)無限窄、無限深

神經(jīng)網(wǎng)絡(luò)架構(gòu)最早的一個(gè)重要理論保證出現(xiàn)在 30 年前。1989 年，計(jì)算機(jī)科學(xué)家證明，如果一個(gè)神經(jīng)網(wǎng)絡(luò)只有一個(gè)計(jì)算層，但這一層有無限數(shù)量的神經(jīng)元，它們之間有無限的連接，那么這個(gè)網(wǎng)絡(luò)將能夠執(zhí)行你要求它做的任何任務(wù)。

這是一個(gè)籠統(tǒng)的陳述，結(jié)果相當(dāng)直觀，但不怎么有用。這就好比說，如果你能在一張圖像中識別出無限多的線條，你就可以只用一個(gè)層來區(qū)分所有的對象。這在原則上可能是正確的，但在實(shí)踐中，祝您好運(yùn)。

今天的研究人員將這種寬而平的網(wǎng)絡(luò)描述為 “富有表現(xiàn)力的”(expressive)，這意味著它們理論上能夠在可能的輸入 (例如圖像) 和輸出 (例如圖像描述) 之間捕獲更豐富的一組連接。然而，這些網(wǎng)絡(luò)是極其難以訓(xùn)練的，這意味著幾乎不可能教他們?nèi)绾螌?shí)際產(chǎn)生這些輸出。它們的計(jì)算量也超過了任何計(jì)算機(jī)可以處理的程度。

德州農(nóng)工大學(xué)的數(shù)學(xué)家 Boris Hanin 研究了神經(jīng)網(wǎng)絡(luò)中深度和寬度之間的權(quán)衡(Intel AI One Tree Studio)

最近，研究人員一直試圖弄清楚他們能在多大程度上將神經(jīng)網(wǎng)絡(luò)推向另一個(gè)方向 —— 通過使神經(jīng)網(wǎng)絡(luò)更窄 (每層的神經(jīng)元更少) 和更深 (整體的層數(shù)更多)。這樣，也許你只需要挑選 100 條不同的線，但可以利用連接把這 100 條線變成 50 條曲線，然后把它們組合成 10 種不同的形狀，這些形狀可以為你提供識別大多數(shù)物體所需的所有構(gòu)建塊。

麻省理工學(xué)院的 Rolnick 和 Max Tegmark 去年發(fā)表了一篇題為 The power of deeper networks for expressing natural functions 的論文，證明通過增加深度和減少寬度，可以用指數(shù)級更少的神經(jīng)元來執(zhí)行同樣的功能。他們表明，如果你正在建模的情況有 100個(gè)輸入變量，你可以使用一層中 2 的 100 次方個(gè)神經(jīng)元，或兩層中 2 的 10 次方個(gè)神經(jīng)元獲得同樣的可靠性。

“神經(jīng)網(wǎng)絡(luò)中 depth 這個(gè)概念與這樣一種想法有關(guān)，即你可以通過按順序做許多簡單的事情來表達(dá)一些復(fù)雜的事情，”Rolnick 說：“這就像一條裝配線。”

Rolnick 和 Tegmark 通過讓神經(jīng)網(wǎng)絡(luò)執(zhí)行一個(gè)簡單的任務(wù)來證明深度的效用：乘法多項(xiàng)式函數(shù)。(這些方程的特征是變量取自然數(shù)的指數(shù)，比如 y = x3 + 1) 他們通過向網(wǎng)絡(luò)展示方程及其乘積的例子來訓(xùn)練網(wǎng)絡(luò)。然后，他們要求這些網(wǎng)絡(luò)計(jì)算他們之前沒有見過的方程式的乘積。結(jié)果顯示，相比更淺的網(wǎng)絡(luò)，更深的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)這個(gè)任務(wù)使用的神經(jīng)元要少得多。

雖然乘法并不是一項(xiàng)轟動世界的任務(wù)，但 Rolnick 表示，這篇論文提出了一個(gè)重要的觀點(diǎn)：“如果一個(gè)淺層的網(wǎng)絡(luò)連乘法都不會做，那么我們就不應(yīng)該在任何事情上相信它?！?/span>

賓夕法尼亞大學(xué)數(shù)學(xué)家 David Rolnick 證明，增加網(wǎng)絡(luò)的深度可以讓網(wǎng)絡(luò)以更少的神經(jīng)元完成任務(wù)。(Stephanie Ku)

其他研究人員一直在探索神經(jīng)網(wǎng)絡(luò)所需的最小寬度。9 月底，曾任俄克拉荷馬州立大學(xué)數(shù)學(xué)家、現(xiàn)為賽諾菲制藥公司研究員的 Jesse Johnson 證明，在某個(gè)特定點(diǎn)上，再大的深度也無法彌補(bǔ)寬度的不足。

為了理解他的結(jié)論，讓我們想象一下牧場里的綿羊，但這些是朋克搖滾羊：他們的羊毛被染成了各種各樣的顏色。你的神經(jīng)網(wǎng)絡(luò)的任務(wù)是在所有相同顏色的羊周圍畫一個(gè)框。這個(gè)任務(wù)類似于圖像分類：網(wǎng)絡(luò)有一個(gè)圖像集 (表示為高維空間中的點(diǎn))，它需要將相似的圖像分組在一起。

Johnson 證明，當(dāng)層的寬度小于或等于輸入的數(shù)量時(shí)，神經(jīng)網(wǎng)絡(luò)就會在這個(gè)任務(wù)中失敗。因此，對于朋克搖滾羊這個(gè)任務(wù)來說，每只羊都可以用兩個(gè)輸入來描述：一個(gè) x 坐標(biāo)和一個(gè) y坐標(biāo)，用來指定它在牧場的位置。然后，神經(jīng)網(wǎng)絡(luò)給每只羊標(biāo)上顏色標(biāo)簽，并在相同顏色的羊周圍畫上邊框。在這種情況下，每層需要三個(gè)或更多的神經(jīng)元才能解決這個(gè)問題。

更具體地說，Johnson 證明如果寬度與變量之間的比率沒有了，神經(jīng)網(wǎng)絡(luò)將無法實(shí)現(xiàn)一個(gè)閉環(huán) —— 比如說，如果所有紅色的羊聚集在牧場中央，神經(jīng)網(wǎng)絡(luò)將需要繪制出這樣的循環(huán)。Johnson 說：“如果所有層中沒有任何一層的神經(jīng)元數(shù)量比輸入維數(shù)更大，那么無論添加多少層，函數(shù)都無法創(chuàng)建某些形狀。”

Johnson 他們的論文、以及更多這樣的論文正開始構(gòu)建神經(jīng)網(wǎng)絡(luò)理論的雛形。目前，研究人員只能對架構(gòu)和函數(shù)之間的關(guān)系做出非常基本的斷言，而這些斷言與神經(jīng)網(wǎng)絡(luò)所承擔(dān)的任務(wù)的數(shù)量相比只占很小的比例。

因此，盡管神經(jīng)網(wǎng)絡(luò)理論不會很快改變系統(tǒng)構(gòu)建的方式，但一個(gè)關(guān)于計(jì)算機(jī)如何學(xué)習(xí)的新理論的藍(lán)圖正在形成 —— 一個(gè)將人類帶上更偉大旅程的藍(lán)圖，其影響甚至比將人類帶上月球更大。

參考文獻(xiàn)：

The power of deeper networks for expressing natural functions

https://arxiv.org/abs/1705.05502

來源：quantamagazine

作者：Kevin Hartnett 編輯：肖琴

文章來源：新智元