除非機器具備了
人類大腦的某些特征,
否則它們不會變得智能。
下面介紹其中的3項特征。
●■●
計算機改變了工作和游戲、交通和醫藥、娛樂和體育。盡管如此,這些機器仍然無法完成孩子都能完成的簡單任務,例如在一個陌生的房間里穿梭或使用鉛筆。●解決方案終于觸手可及了,它將出現在兩個主要研究方向的交叉點:大腦逆向工程和人工智能的新興領域。在未來20年里,這兩個方面的研究將結合起來,迎來智能機器的一個新紀元。●我們為什么需要了解大腦如何運轉,來制造智能機器?雖然深度神經網絡等機器學習技術最近取得了令人印象深刻的成果,但它們離智能、離人類的理解力和行為仍然相距甚遠。擁有智能、擁有認識世界的能力、能夠計劃和執行的唯一實例,就是大腦。因此,我們必須了解人類智能的基本原理,并利用它們來指導我們開發真正的智能機器。
在我位于加州紅木市的Numenta公司里,我們將新皮質——大腦最大的組成部分,也是負責智能的主要部分——作為研究對象。我們的目標是了解它如何運作,并確定人類認知的基本原理。近年來,我們的工作取得了長足的進步,已經確定了生物智能應該體現在未來的思維機器中的幾個特點。
要理解這些原理,我們必須從生物學的基礎開始。人類大腦與爬行動物的大腦相似,都有控制反射行為的脊髓、控制呼吸和心率等自主行為的腦干,以及控制情緒和基本行為的中腦。但是人類(實際上還有所有哺乳類動物)有一樣東西是爬蟲類動物不具有的:新皮質。
新皮質是一層褶皺很深的薄層,大約2毫米厚,如果平整攤開,和大號餐巾紙差不多大。它占人類大腦體積的75%左右。就是它讓我們變得聰明。
人出生時,新皮質幾乎一無所知,它通過積累經驗進行學習。我們對世界的一切認識,比如開車、使用咖啡機,以及每天成千上萬的交互行為,都存儲在新皮質中。它學會了認識這些物體,了解它們在世界中的位置,以及它們如何行事。新皮質也會產生動作指令,所以當你做飯或編寫軟件時,實際上是新皮質控制著這些行為。語言也是由新皮質創造和理解的。
新皮質像整個大腦和神經系統一樣,由神經元組成。因此,要了解大腦是如何運作的,需要從神經元開始。新皮質大約有300億個神經元。典型的神經元有一個尾巴一樣的軸突以及多個樹狀的延伸物(稱為樹突)。如果把神經元看成一種信號系統,軸突就相當于發射器,樹突相當于接收器。沿著樹突的分支分布著大約5000到1萬個突觸,每一個突觸都與其他成千上萬個神經元的突觸相連。因此有超過100萬億個突觸連接。
你對周圍世界的體驗——認出一個朋友的面孔、享受一曲音樂、手里拿著一塊肥皂——都是由眼睛、耳朵和其他感覺器官輸入到你的新皮質,并激活眾多神經元的結果。當神經元受到刺激時,電尖峰會沿著神經元軸突流動,并通過突觸傳遞到其他神經元。如果一個接收神經元得到足夠的輸入,它就可能進入興奮狀態并激活其他神經元。在新皮質的300億個神經元中,在任一瞬間,其中的1%或2%的神經元都處于興奮狀態,這意味著在任何時間點,都有幾百萬個神經元處于活躍狀態。當你活動并與世界互動時,活躍神經元的集合也會發生變化。你對世界的感知,即你自己所認為的意識體驗,是由不斷變化的活動神經元模式決定的。
新皮質主要通過形成新的突觸來存儲這些模式。當你再次看到以前見過的面孔和地方時,這些存儲使你能夠識別并回憶起它們來。例如,當你想到你朋友的面孔時,新皮質中會出現一種神經激活模式,與你真正看到朋友面孔時的相應模式類似。
值得注意的是,新皮質既復雜又簡單。說它復雜,是因為它被劃分成幾十個區域,每個區域負責不同的認知功能。每個區域內有多個神經元層,包含幾十種神經元類型,神經元以錯綜復雜的模式連接。
說新皮質簡單,是因為每個區域的細節幾乎都是相同的。隨著人類的進化,逐漸演化出一種可以應用于新皮質所有功能的算法。這個通用算法的存在是令人振奮的,因為如果能弄清楚這個算法是什么,我們就可以徹底明白智能意味著什么,并把這些知識灌輸到未來的機器中。
但這不是人工智能已經在做的嗎?大多數人工智能不就是建立在與之類似的大腦“神經網絡”上的嗎?其實并非如此。雖然今天的人工智能技術參考了神經科學,但它們使用的是一種過于簡化的神經元模型,不具有真正神經元的基本特征,而且,它們的連接方式并不能反映人類大腦實際的復雜結構。二者之間的差異有很多,而且非常重要。這就是為什么今天的人工智能可能擅長標記圖像或識別口頭語言,卻不能以創造性的方式進行推理、計劃和行動。
在研究新皮質如何運作方面,我們最近的進展讓我們對未來思維機器的運作方式有了些新想法。我將介紹如今人工智能大都缺失卻對生物智能至關重要的3個方面:重建回路學習、稀疏表示和具身化(指通過身體移動來了解世界)。
●■●
重建回路學習:大腦表現出一些卓越的學習特性。首先,我們學得很快。隨意看幾眼或用手指觸摸幾下,常常足以讓我們學到新東西。第二,學習具有增量性。我們不需要再訓練整個大腦或忘記以前學過的東西,就可以學習新東西。第三,大腦在不斷學習。當我們在走動、規劃和行動時,我們一直在學習。快速、增量和連續學習是使智能系統適應變化世界的基本要素。神經元負責學習,而使神經元成為強大學習機器的則是它的復雜性。
近年來,神經科學家們掌握了一些關于樹突的重要信息。其中之一是,樹突的每個分支充當一組模式檢測器。事實證明,每個分支上只要有15到20個活躍突觸,就能夠識別大量神經元的活躍模式。因此,單個神經元可以識別數百種不同模式。其中,有些模式讓神經元變得活躍,有些則改變細胞的內部狀態,并預測未來活動。
神經科學家過去認為,學習僅僅是通過修改現有突觸的有效性來實現的,這樣當輸入到達突觸時,神經元細胞就可能更容易或更難被激活。然而,我們現在了解到,大多數學習是通過“重建大腦回路”而在細胞之間產生新突觸的結果。每天,神經元中有高達40%的突觸被新突觸替換。新的突觸使神經元之間出現新的連接模式,因此導致新的記憶。由于樹突的分支大多是獨立的,因此當神經元學習識別某一樹突上的新模式時,并不會干擾其他樹突已經學到的東西。
這就是為什么我們能夠學習新事物而不干擾舊記憶,為什么我們每次學習新東西的時候不需要重新訓練大腦。今天的神經網絡沒有這些屬性。
智能機器不必模仿生物神經元的所有復雜性,但樹突和重建回路學習所實現的相關能力是必不可少的。未來的人工智能系統將需要具備這些能力。
●■●
稀疏表示:大腦和計算機表示信息的方式很不相同。在計算機內存中,1和0的所有組合都可能是有效的,所以如果你改變一個比特,通常就會出現完全不同的含義。這大致如同把“fire”(火)中的“i”改變成“a”,使它變成一個毫不相干的詞“fare”(車費)一樣。這種表示方式非常脆弱。
而大腦使用的是所謂的稀疏分布表示(SDR)。之所以稱其為“稀疏”,是因為在任何給定的時間,只有相對較少的神經元完全處于活躍狀態。隨著你移動和思考,活躍的神經元會發生變化,但比例總是很低。如果我們把每個神經元看成1比特,那么大腦會使用幾千個比特(比計算機使用的8至64個多得多)表現一條信息,但在任何時刻都只有其中一小部分的值是1,其余的都是0。
假設你想用稀疏分布表示來表現“貓”的概念,你可能會使用1萬個神經元,而其中只有100個是活躍的。每個活躍的神經元代表貓的某些方面,如“寵物”“毛茸茸”“爪子”。如果少數神經元死亡,或額外的一些神經元變得活躍,新的稀疏分布表示仍然能較好地表示“貓”,因為活躍的神經元大多數仍然是相同的。稀疏分布表示不脆弱,且對誤差和噪聲有內在的抵抗力。當我們想用硅來制造大腦時,它們應具備內在的容錯能力。
我想說一下稀疏分布表示的兩個屬性。其一是重疊屬性,能讓其容易識別兩個事物的含義有哪些異同之處。設想有兩個稀疏分布表示,一個表示“貓”,另一個表示“鳥”。它們都具有表示“寵物”和“爪子”的相同活躍神經元,但表示“毛茸茸”的則不是它們的共同神經元。這只是一個簡化的例子,說明重疊屬性很重要,因為它讓大腦很快弄清楚這兩個事物的異同。這一屬性賦予了人類概括能力,而這正是計算機所缺乏的。
其二是聯合屬性,它允許大腦同時表示多個想法。想象一下,我看見一只動物在灌木叢中移動,但只看了一眼,所以不能確定我看到的是什么。它可能是一只貓、一只狗或一只猴子。因為稀疏分布表示是稀疏的,而且互不干擾,所以眾多神經元可以同時激活3個稀疏分布表示而不會產生困惑。神經元具有不斷形成稀疏分布表示聯合體的能力,因此非常善于處理不確定性。
稀疏分布表示的兩種特性是大腦能夠進行理解、思考和規劃的關鍵。不接納稀疏分布表示就無法造出智能機器。
●■●
具身化:新皮質接收來自感覺器官的輸入。每當我們移動目光、四肢或身體時,感官輸入都會發生變化。這種不斷變化的輸入是大腦認識世界的主要機制。假設我給你一個你從未見過的物體,為討論之便,假設我給你的是訂書機。你將如何認識這個新物體?或許你會繞著訂書機走,從不同的角度觀察它。或許你會拿起它,用手指觸摸,并在手中擺弄。然后你可能試著拉起或按下它,看它的反應。通過這個互動過程,你認識了訂書機的形狀、感覺、外觀以及作用。你做一個動作,看看輸入如何變化,再做一個動作,看看輸入如何再次改變,不斷反復。通過動作來學習是大腦的主要學習手段。這將是所有真正智能系統的核心組成部分。
這并不是說智能機器需要一個實體,而是說它需要有能力通過移動來改變它的感知。例如,虛擬人工智能機器可以通過跟蹤鏈接和打開文件,在網絡中“移動”。它可以通過虛擬活動來了解虛擬世界的結構,就像我們走過建筑物時所做的那樣。
這讓我們于2016年在Numenta公司取得了重要發現。在新皮質中,感覺輸入是在不同層次的區域中處理的。隨著感官輸入從一個層級被傳遞到另一個層級,更復雜的特征被提取出來,直到某一點可以識別出物體為止。深度學習網絡也使用層次結構,但它們往往需要100個層次的處理才能識別一個圖像,而新皮質只需要4個層次就可獲得相同結果。深度學習網絡還需要上百萬種訓練模式,而新皮質僅通過少量動作和感覺就可以認識新物體。大腦的做法與典型的人工神經網絡有著本質的不同,但是大腦是怎么做的呢?
19世紀的德國科學家赫爾曼?馮?亥姆霍茲是最先給出答案的人之一。他觀察到,雖然我們的眼球每秒鐘都動三四次,但我們的視覺感知是穩定的。他推斷,大腦必須考慮眼球是如何移動的,否則在我們眼里整個世界都好像在瘋狂地跳來跳去。同樣,當你觸摸某物時,如果大腦只處理觸覺輸入,而不知道你的手指在同一時間如何移動,也會讓人感到困惑。這種把動作與感覺變化相結合的原則被稱為感覺運動整合。感覺運動整合在大腦中何處發生、如何發生,目前很大程度上仍然是個謎。
我們的發現是,感覺運動整合發生在新皮質的每個區域。它不是一個單獨的步驟,而是所有感官處理的組成部分。感覺運動整合是新皮質“智能算法”的重要組成部分。在Numenta公司,我們有一套解釋神經元如何運作的理論和模型,這個模型可以很好地映射每個新皮質區域的復雜解剖結構。
這個發現對機器智能有什么影響?想想你可能在計算機上看到的兩種文件吧。一種是照相機生成的圖像文件,另一個是由歐特克等程序生成的計算機輔助設計(CAD)文件。圖像文件表示一組二維視覺特征。CAD文件也表示一組特征,但每個特征都對應著三維空間內的一個指定位置。CAD文件對完整的物體(而不是物體從某個角度看上去的樣子)進行建模。利用CAD文件,你可以預知物體在任何角度的樣子,并確定某物體如何與其他三維物體互動,而用圖像文件則無法做到這些。我們發現,新皮質的每個區域都能像CAD程序那樣認識物體的三維模型。身體每動一次,新皮質都會獲取當前的動作指令,并將它轉換成物體參考系中的位置,然后把該位置與感官輸入結合起來,以認識世界中的三維模型。
事后看來,這種觀察是有意義的。智能系統需要學習世界的多維模型。感覺運動整合并非只發生在大腦的幾個區域,它是大腦功能的核心原理,是智能算法的一部分。智能機器也必須如此運作。
●■●
新皮質的3項基本屬性——重建回路學習、稀疏分布表示、感覺運動整合——將是機器智能的基石。未來的思維機器可以忽略生物學的許多方面,卻不能忽略這3個方面。毫無疑問,在神經生物學方面還會有進一步揭示認知的其他發現,它們將來也需要被納入智能機器中,但我們可以從今天已經知道的開始。
在人工智能的早期發展階段,批評者就摒棄了試圖模仿人類大腦的想法,經常說“飛機并不會扇動翅膀”。實際上,威爾伯?萊特和奧威爾?萊特兄弟倆詳細研究了鳥類。為了創造升力,他們研究了鳥翼形狀并在風洞中進行了測試。對于推進力,他們采用了鳥類所不具備的解決方案:螺旋槳和電機。為了控制飛行,他們觀察到鳥類在飛行轉向時會傾斜翅膀,并用尾巴維持高度。所以他們也這么做了。今天,飛機仍然使用這種方法,只是我們傾斜的是機翼的尾緣。總之,萊特兄弟研究了鳥類,然后選出了哪些鳥類飛行元素是人類飛行必不可少的,而哪些是可以忽略的。這就是我們在制造思維機器過程中要做的。
考慮未來時,我會擔心我們設定的目標不夠高。當今計算機能對圖像進行分類并識別口語問詢,這是令人興奮的,但我們離造出真正的智能機器還相距甚遠。我相信制造真正的智能機器是非常重要的。人類未來的成功,甚至是人類的生存或許都取決于它。例如,如果我們要到其他行星上居住,我們將需要機器代替我們行動,進行太空旅行、修筑建筑物、開采資源,并在人類無法生存的環境中獨立解決復雜的問題。在地球上,我們面臨著疾病、氣候和能源方面的挑戰。智能機器可以幫助我們。例如,我們應該能設計出可在分子層面感知和行動的智能機器。這些機器會以你我認識電腦和訂書機那樣的方式,來考慮蛋白質折疊和基因表達。它們能以比人類快100萬倍的速度思考和行事。這種機器可以治愈疾病,讓我們的世界適宜居住。
在20世紀40年代,計算時代的先驅們意識到,未來,計算機將變得十分重要和有益于人類,并且可能改變人類社會。但他們無法準確地預測計算機將如何改變我們的生活。同樣,我們可以相信,真正的智能機器將把世界變得更美好,雖然今天我們還不能準確地預測將如何改變。20年后,當我們回望時會發現,是大腦理論和機器學習的進步開創了真正的機器智能時代。
作者: Jeff Hawkins
往期推薦