若進展順利,可能到2023年實現;若進展瘋狂,明天就可以。
為建造更加強大的超級計算機所進行的全球競賽如今關注的焦點是每秒1百億億次的浮點運算(百億億次級)。這樣的系統需要對機器的計算方法以及數據的移動和編程方式進行大規模革新。這個過程或許經過8年也無法實現目標。但現在人們正在兩臺機器上設計未來成功的種子,或許僅2年就能達到目的。
中國和日本似乎都很關注如何在2020年前建造出一臺百億億次級的超級計算機。但專家稱,美國可能最早也要到2023年才能建造出首個實用型百億億次級超級計算機。為實現目標,工程師們需要做3件事。首先,他們需要建造出能將幾萬個CPU和基于圖形處理器的加速器結合起來的新型計算機架構;工程師們還需要解決從超級計算機的存儲器將數據移動到處理器所帶來的能源成本增加的問題;最后,軟件開發人員需要找出能夠使用新型架構的程序設計方法。
克雷公司高級副總裁兼首席技術官史蒂夫?斯科特(Steve Scott)稱:“某種程度上,這取決于一個國家愿意投入多少錢。你可以明天就建一個百億億次級的計算機,但那么做是很瘋狂的,因為要運行它需要大量的費用和能源。”
諾特丹大學的計算機科學家和工程師彼得?蔻格(Peter Kogge)曾在2011年1月的IEEE Spectrum上寫道,若僅靠提升今天的超級計算機架構來打造百億億次級超級計算機,那么打造出的機器將需要相當于千兆瓦規模的核電廠供能。然而,位于加利福尼亞州的勞倫斯?伯克利國家實驗室的副主任霍斯特?西蒙(Horst Simon)稱,美國政府希望在2020年之后的10年里,以2億美元的造價和20到30兆瓦的功率實現實用型百億億次級的超級計算能力。(1兆瓦的功率每年要花掉100萬美元。)
美國能源部最近宣布將對IBM、邁絡思、英偉達及其他公司正在開發的、計劃在2017年進行首秀的一對超級計算機(性能達到百億億次的十分之一或更多)投資3.25億美元。規劃中的叫做“Summit和Sierra”的超級計算機基于新型的計算機架構,可累積的內存幾乎相當于英偉達的GPU加速器和IBM的CPU的總和。專家稱,這一架構可以將數據在存儲器和處理器間移動的能耗最小化,這是向百億億次級超級計算機邁進的一大步。
西蒙解釋道,實用的百億億次級計算還需另行開發堆棧存儲以及更快、更節能的互聯來提高密集充填的超級計算機芯片的性能。但他預計,還需要其他的技術技巧。其中一項技術——硅光子學——就需要利用低功率的激光來提供系統內部的數據連接。
位于加利福尼亞州的勞倫斯?利弗莫爾國家實驗室利弗莫爾計算的首席技術官伯若尼斯?德?塞平斯基(Bronis de Supinski)稱,電能和成本還不是阻礙百億億次級實用系統實現的唯一因素。由于超級計算機要容納非常多的元件,因此硬件故障的風險也會增加。他所在的實驗室中一臺叫做“紅杉”的IBM藍色基因/Q超級計算機現在平均每3.5~7天發生一次故障。而對于百億億次級的系統,這一時間間隔可能會縮短至僅30分鐘。
對研究人員來說,要運行復雜的仿真或其他應用,這個時間段根本不夠用。但能自動重啟程序的軟件有助于超級計算系統從某些硬件錯誤中恢復。德?塞平斯基稱:“這就是硬件……帶來的挑戰最終不得不在軟件中尋求解決方法的一個實例?!?br /> 專家還指出一個挑戰,就是要為同時運行的幾萬個或幾十萬個CPU編寫軟件應用程序。編程對于較新的且包含GPU加速器的超級計算架構來說變得更加復雜。這就是為什么致力于研究規劃中的Summit和Sierra機器的英偉達(總部位于加州圣克拉拉)及其合作公司已聯系全球數千名大學里的軟件開發人員,并開始傳授他們有關加速器的知識。
除了Summit和Sierra,美國能源部還另投資了1億美元來為百億億次級超級計算鋪路。但這筆投資并不是為了使少數幾個能負擔得起這種設備的美國政府實驗室受益。英偉達公司負責特斯拉加速計算業務的總經理蘇米特?古皮塔(Sumit Gupta)稱,制造百億億次級的超級計算機所需的新型計算機架構還會使超級計算變得更加容易廣泛獲取。
他說:“我一直好奇的是,一旦我們擁有了百億億次級的計算機,那么千萬億次級的機器將變成多小呢?它是能裝進雙肩包里還是能放在我桌子下面呢?普通大學生今天還做不了的那些研究,到時候他們能做到什么水平了呢?我總覺得這方面的問題更加有趣。”
作者:Jeremy Hsu