若進(jìn)展順利,可能到2023年實(shí)現(xiàn);若進(jìn)展瘋狂,明天就可以。
為建造更加強(qiáng)大的超級計(jì)算機(jī)所進(jìn)行的全球競賽如今關(guān)注的焦點(diǎn)是每秒1百億億次的浮點(diǎn)運(yùn)算(百億億次級)。這樣的系統(tǒng)需要對機(jī)器的計(jì)算方法以及數(shù)據(jù)的移動(dòng)和編程方式進(jìn)行大規(guī)模革新。這個(gè)過程或許經(jīng)過8年也無法實(shí)現(xiàn)目標(biāo)。但現(xiàn)在人們正在兩臺機(jī)器上設(shè)計(jì)未來成功的種子,或許僅2年就能達(dá)到目的。
中國和日本似乎都很關(guān)注如何在2020年前建造出一臺百億億次級的超級計(jì)算機(jī)。但專家稱,美國可能最早也要到2023年才能建造出首個(gè)實(shí)用型百億億次級超級計(jì)算機(jī)。為實(shí)現(xiàn)目標(biāo),工程師們需要做3件事。首先,他們需要建造出能將幾萬個(gè)CPU和基于圖形處理器的加速器結(jié)合起來的新型計(jì)算機(jī)架構(gòu);工程師們還需要解決從超級計(jì)算機(jī)的存儲器將數(shù)據(jù)移動(dòng)到處理器所帶來的能源成本增加的問題;最后,軟件開發(fā)人員需要找出能夠使用新型架構(gòu)的程序設(shè)計(jì)方法。
克雷公司高級副總裁兼首席技術(shù)官史蒂夫?斯科特(Steve Scott)稱:“某種程度上,這取決于一個(gè)國家愿意投入多少錢。你可以明天就建一個(gè)百億億次級的計(jì)算機(jī),但那么做是很瘋狂的,因?yàn)橐\(yùn)行它需要大量的費(fèi)用和能源。”
諾特丹大學(xué)的計(jì)算機(jī)科學(xué)家和工程師彼得?蔻格(Peter Kogge)曾在2011年1月的IEEE Spectrum上寫道,若僅靠提升今天的超級計(jì)算機(jī)架構(gòu)來打造百億億次級超級計(jì)算機(jī),那么打造出的機(jī)器將需要相當(dāng)于千兆瓦規(guī)模的核電廠供能。然而,位于加利福尼亞州的勞倫斯?伯克利國家實(shí)驗(yàn)室的副主任霍斯特?西蒙(Horst Simon)稱,美國政府希望在2020年之后的10年里,以2億美元的造價(jià)和20到30兆瓦的功率實(shí)現(xiàn)實(shí)用型百億億次級的超級計(jì)算能力。(1兆瓦的功率每年要花掉100萬美元。)
美國能源部最近宣布將對IBM、邁絡(luò)思、英偉達(dá)及其他公司正在開發(fā)的、計(jì)劃在2017年進(jìn)行首秀的一對超級計(jì)算機(jī)(性能達(dá)到百億億次的十分之一或更多)投資3.25億美元。規(guī)劃中的叫做“Summit和Sierra”的超級計(jì)算機(jī)基于新型的計(jì)算機(jī)架構(gòu),可累積的內(nèi)存幾乎相當(dāng)于英偉達(dá)的GPU加速器和IBM的CPU的總和。專家稱,這一架構(gòu)可以將數(shù)據(jù)在存儲器和處理器間移動(dòng)的能耗最小化,這是向百億億次級超級計(jì)算機(jī)邁進(jìn)的一大步。
西蒙解釋道,實(shí)用的百億億次級計(jì)算還需另行開發(fā)堆棧存儲以及更快、更節(jié)能的互聯(lián)來提高密集充填的超級計(jì)算機(jī)芯片的性能。但他預(yù)計(jì),還需要其他的技術(shù)技巧。其中一項(xiàng)技術(shù)——硅光子學(xué)——就需要利用低功率的激光來提供系統(tǒng)內(nèi)部的數(shù)據(jù)連接。
位于加利福尼亞州的勞倫斯?利弗莫爾國家實(shí)驗(yàn)室利弗莫爾計(jì)算的首席技術(shù)官伯若尼斯?德?塞平斯基(Bronis de Supinski)稱,電能和成本還不是阻礙百億億次級實(shí)用系統(tǒng)實(shí)現(xiàn)的唯一因素。由于超級計(jì)算機(jī)要容納非常多的元件,因此硬件故障的風(fēng)險(xiǎn)也會(huì)增加。他所在的實(shí)驗(yàn)室中一臺叫做“紅杉”的IBM藍(lán)色基因/Q超級計(jì)算機(jī)現(xiàn)在平均每3.5~7天發(fā)生一次故障。而對于百億億次級的系統(tǒng),這一時(shí)間間隔可能會(huì)縮短至僅30分鐘。
對研究人員來說,要運(yùn)行復(fù)雜的仿真或其他應(yīng)用,這個(gè)時(shí)間段根本不夠用。但能自動(dòng)重啟程序的軟件有助于超級計(jì)算系統(tǒng)從某些硬件錯(cuò)誤中恢復(fù)。德?塞平斯基稱:“這就是硬件……帶來的挑戰(zhàn)最終不得不在軟件中尋求解決方法的一個(gè)實(shí)例。”
專家還指出一個(gè)挑戰(zhàn),就是要為同時(shí)運(yùn)行的幾萬個(gè)或幾十萬個(gè)CPU編寫軟件應(yīng)用程序。編程對于較新的且包含GPU加速器的超級計(jì)算架構(gòu)來說變得更加復(fù)雜。這就是為什么致力于研究規(guī)劃中的Summit和Sierra機(jī)器的英偉達(dá)(總部位于加州圣克拉拉)及其合作公司已聯(lián)系全球數(shù)千名大學(xué)里的軟件開發(fā)人員,并開始傳授他們有關(guān)加速器的知識。
除了Summit和Sierra,美國能源部還另投資了1億美元來為百億億次級超級計(jì)算鋪路。但這筆投資并不是為了使少數(shù)幾個(gè)能負(fù)擔(dān)得起這種設(shè)備的美國政府實(shí)驗(yàn)室受益。英偉達(dá)公司負(fù)責(zé)特斯拉加速計(jì)算業(yè)務(wù)的總經(jīng)理蘇米特?古皮塔(Sumit Gupta)稱,制造百億億次級的超級計(jì)算機(jī)所需的新型計(jì)算機(jī)架構(gòu)還會(huì)使超級計(jì)算變得更加容易廣泛獲取。
他說:“我一直好奇的是,一旦我們擁有了百億億次級的計(jì)算機(jī),那么千萬億次級的機(jī)器將變成多小呢?它是能裝進(jìn)雙肩包里還是能放在我桌子下面呢?普通大學(xué)生今天還做不了的那些研究,到時(shí)候他們能做到什么水平了呢?我總覺得這方面的問題更加有趣。”
作者:Jeremy Hsu