亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現(xiàn)在的位置是:首頁 > 技術(shù)閱讀 >  史上最快AI計(jì)算機(jī)發(fā)布!谷歌TPU V3的1/5功耗、1/30體積,首臺實(shí)體機(jī)已交付

史上最快AI計(jì)算機(jī)發(fā)布!谷歌TPU V3的1/5功耗、1/30體積,首臺實(shí)體機(jī)已交付

時(shí)間:2024-01-05
還記得8月份占據(jù)各家科技頭條的有史以來最大芯片嗎?
這個(gè)名為Cerebras Wafer Scale Engine(WSE)的“巨無霸”面積達(dá)到42225 平方毫米,擁有1.2 萬億個(gè)晶體管,400000 個(gè)核心,片上內(nèi)存18 Gigabytes,內(nèi)存帶寬19 PByte/s,fabric帶寬100 Pbit/s,是目前芯片面積最大的英偉達(dá)GPU的56.7倍。
就在剛剛,在超級計(jì)算2019峰會(Supercomputing 2019 Event)上,這家備受矚目的硅谷初創(chuàng)公司Cerebras,又宣布了大消息,發(fā)布了號稱世界上最快的深度學(xué)習(xí)計(jì)算系統(tǒng)CS-1。
Cerebras同時(shí)還宣布,CS-1已經(jīng)獲得了美國政府超級計(jì)算機(jī)項(xiàng)目的認(rèn)可。
目前,第一臺CS-1已經(jīng)向美國能源部的Argonne國家實(shí)驗(yàn)室交付完畢,將投入處理大規(guī)模的人工智能計(jì)算問題,比如研究癌癥藥物的相互作用。
盡管CS-1的性能還沒有得到相關(guān)驗(yàn)證,但似乎仍為大規(guī)模人工智能計(jì)算提供了一種新可能。

專為人工智能計(jì)算設(shè)計(jì)的超級計(jì)算系統(tǒng)

Cerebras其實(shí)是一家剛剛成立三年的硅谷初創(chuàng)公司, 但憑借幾次重要發(fā)布,目前已經(jīng)融資超過2億美元。


Cerebras主頁
如此受矚目是因?yàn)槠湓谌斯ぶ悄苄酒圃焐喜扇×艘环N不同以往的方法——將所有數(shù)據(jù)保存在一塊巨大的芯片上,以便系統(tǒng)更快運(yùn)行。
AI系統(tǒng)一般會搭載許多芯片協(xié)同工作。但這存在一個(gè)顯著問題,在芯片之間進(jìn)行數(shù)據(jù)傳輸很慢,并且會限制芯片的分析速度。
成立之初,Cerebras就希望建立一種專門為深度學(xué)習(xí)優(yōu)化的新型計(jì)算機(jī),為特定的工作負(fù)載選擇正確的計(jì)算機(jī)體系結(jié)構(gòu)。
Cerebras表示,與其他系統(tǒng)相比,CS-1的每一個(gè)組件都專門針對人工智能工作優(yōu)化,可以以更小的尺寸和更少的能源消耗下提供更高的計(jì)算性能。
CS-1高度達(dá)到26英寸(約66厘米),大概相當(dāng)于一個(gè)小的行李箱。據(jù)相關(guān)報(bào)道,一個(gè)機(jī)架中包含了1,000個(gè)GPU的集群,50千瓦的功率。單個(gè)Cerebras芯片的內(nèi)核數(shù)量是單個(gè)GPU的78倍以上,內(nèi)存是3,000倍,內(nèi)存帶寬是10,000倍,此外它還具有33000倍的帶寬(PB/s)。


CS-1的側(cè)視圖
這個(gè)性能有多強(qiáng)大呢?對比一下谷歌的TPU v3,CS-1功耗是它的五分之一,體積只有它的三十分之一,但速度卻是整個(gè)TPU v3的三倍。

搭載全世界最大芯片,幾分鐘完成傳統(tǒng)芯片幾個(gè)月的任務(wù)

Cerebras為CS-1設(shè)計(jì)了專門的系統(tǒng)和軟件平臺,以從史上最大芯片WSE上的40萬個(gè)計(jì)算內(nèi)核和18G高性能片上存儲器中提取極限處理能力。

在人工智能計(jì)算中,芯片越大越好。更大的芯片處理信息更快,能在更短的時(shí)間內(nèi)得到訓(xùn)練結(jié)果。但是,僅有優(yōu)異的處理器性能還遠(yuǎn)不足夠。像WSE這樣的高級處理器必須與專用的軟件相結(jié)合才能實(shí)現(xiàn)破紀(jì)錄的性能。因此,Cerebras專門為這一巨型芯片開發(fā)了CS-1內(nèi)置系統(tǒng)和軟件平臺,各方面都為加速人工智能計(jì)算專門設(shè)計(jì)。
Cerebras首席執(zhí)行官安德魯?費(fèi)爾德曼(Andrew Feldman)在接受 VentureBeat 采訪時(shí)說:“這是從300毫米晶圓中切割出的最大“正方形“。盡管我們擁有最大、最快的芯片,但我們知道,一個(gè)非凡的處理器未必足以提供非凡的性能。如果想提供非常快的性能,那么就需要構(gòu)建一個(gè)系統(tǒng)。而且并不是說把法拉利的引擎放進(jìn)大眾汽車?yán)铮湍艿玫椒ɡ男阅堋H绻胍@得1000倍的性能提升,需要做的就是打破瓶頸。”


Cerebras首席執(zhí)行官安德魯?費(fèi)爾德曼(Andrew Feldman)
Cerebras 表示,他們是唯一一家從頭開始建立專用系統(tǒng)這一任務(wù)的公司。通過優(yōu)化芯片設(shè)計(jì)、系統(tǒng)設(shè)計(jì)和軟件的各個(gè)方面,CS-1目前的性能令人滿意。
通過CS-1和配套的系統(tǒng)軟件, AI需要幾個(gè)月才能完成的工作現(xiàn)在可以在幾分鐘內(nèi)完成,而需要幾個(gè)星期完成的工作可以在幾秒鐘內(nèi)迅速完成。
CS-1不僅從根本上減少了訓(xùn)練時(shí)間,而且還為降低延遲設(shè)立了新的標(biāo)桿。對于深度神經(jīng)網(wǎng)絡(luò),單一圖像的分類可以在微秒內(nèi)完成,比其他解決方案快幾千倍。
“這是一臺由40萬個(gè)專用人工智能處理器組成的人工智能系統(tǒng)。”費(fèi)爾德曼說。

已經(jīng)與Argonne國家實(shí)驗(yàn)室達(dá)成合作


CS-1分解圖。來源: Cerebras

目前,CS-1的第一臺機(jī)器已經(jīng)完成交付。在Argonne國家實(shí)驗(yàn)室,CS-1正被用于研究癌癥的神經(jīng)網(wǎng)絡(luò)的開發(fā),幫助理解和治療創(chuàng)傷性腦損傷,CS-1的性能使其成為AI中最復(fù)雜問題的潛在解決方案。

Argonne實(shí)驗(yàn)室是一個(gè)多學(xué)科的科學(xué)與工程研究中心,CS-1可以將全球最大的超級計(jì)算機(jī)站點(diǎn)比現(xiàn)有的AI加速器性能提升100到1000倍。
通過將超級計(jì)算能力與CS-1的AI處理能力結(jié)合使用,Argonne實(shí)驗(yàn)室現(xiàn)在可以加快深度學(xué)習(xí)模型的研發(fā),以解決現(xiàn)有系統(tǒng)無法實(shí)現(xiàn)的問題。
“我們與Cerebras合作已有兩年多了,我們非常高興將新的AI系統(tǒng)引入Argonne。”Argonne實(shí)驗(yàn)室的計(jì)算、環(huán)境和生命科學(xué)副實(shí)驗(yàn)室主任Rick Stevens表示,“通過部署CS-1,我們大大縮短了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間,使我們的研究人員能夠大大提高工作效率,從而在癌癥、顱腦外傷以及當(dāng)今社會重要的許多其他領(lǐng)域的深度學(xué)習(xí)研究中得到顯著進(jìn)步。”
深度學(xué)習(xí)是人工智能的一個(gè)領(lǐng)域,它允許計(jì)算機(jī)網(wǎng)絡(luò)從大量的非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行學(xué)習(xí),然而深度學(xué)習(xí)模型需要大量的計(jì)算能力,并正在挑戰(zhàn)當(dāng)前計(jì)算機(jī)系統(tǒng)能夠處理的極限,Cerebras CS-1的推出試圖解決這一問題。
Argonne實(shí)驗(yàn)室部署CS-1以加強(qiáng)人工智能模型的訓(xùn)練,它的第一個(gè)應(yīng)用領(lǐng)域是癌癥藥物反應(yīng)預(yù)測,這個(gè)項(xiàng)目是美國能源部和國家癌癥研究所合作的一部分,旨在利用先進(jìn)的計(jì)算機(jī)和人工智能來解決癌癥研究中的重大挑戰(zhàn)問題。增加的 Cerebras CS-1正在努力支持Argonne擴(kuò)大,主要提倡先進(jìn)的計(jì)算,這也有望利用AI功能在2021年發(fā)布的Aurora exascale 系統(tǒng)實(shí)現(xiàn)百億億次級連接。
美國能源部負(fù)責(zé)人工智能與技術(shù)的副部長Dimitri Kusnezov在一份聲明中說:“在能源部,我們相信與私企合作是加速美國人工智能研究的重要組成部分。我們期待著與Cerebras建立長期而有成效的伙伴關(guān)系,這將有助于研究下一代人工智能技術(shù),并改變能源部的運(yùn)營、業(yè)務(wù)和任務(wù)的形勢。”
費(fèi)爾德曼說:“我認(rèn)為,我們將在未來五年內(nèi)迎來一個(gè)非常激動人心的職業(yè)生涯。我認(rèn)為,一小群人可以改變世界,這確實(shí)是企業(yè)家的口頭禪。你不需要一個(gè)大公司,不需要數(shù)十億美元,只要一小群杰出的工程師就能真正改變世界。我們始終相信這一點(diǎn)。”

仍存在質(zhì)疑:高昂價(jià)格、內(nèi)存過小、算法瓶頸?

當(dāng)然,對于這樣一個(gè)全新的AI系統(tǒng),許多網(wǎng)友也提出了質(zhì)疑。

Reddit上針對CS-1的一個(gè)討論中,名為“yusuf-bengio”的網(wǎng)友表示,在實(shí)際操作中這種“晶圓規(guī)模的AI處理器”可能存在瓶頸,比如:
  • 價(jià)格。制造這樣一個(gè)芯片比小型的GPU昂貴得多;
  • 內(nèi)存過小。存在延遲或帶寬瓶頸;
  • 算法瓶頸。如果要使用整個(gè)芯片,就必須訓(xùn)練一個(gè)極小批量的模型,這反過來會影響準(zhǔn)確性。
內(nèi)存的問題也引起了許多網(wǎng)友的共鳴,有網(wǎng)友表示,這個(gè)芯片只能用batch_size 1訓(xùn)練,18GB的靜態(tài)隨機(jī)存取存儲器(SRAM)直接使得Megatron,T5,甚至是GPT-2這些模型不能使用。

兩大亮點(diǎn)

最后,盡管有質(zhì)疑,還是再來看看Cerebras公布的這臺全世界最快計(jì)算機(jī)的兩大亮點(diǎn)。

CS-1系統(tǒng)


上圖: Cerebras聲稱CS-1是最快的人工智能計(jì)算機(jī)。圖片來源: Cerebras

“ CS-1是一個(gè)單一的系統(tǒng),可以比最大的集群提供更多的計(jì)算性能,還省去了集群搭建和管理的開銷。”Tirias Research首席分析師凱文 · 克雷韋爾(Kevin Krewell)在一份聲明中表示, “CS-1在單個(gè)系統(tǒng)中提供如此多的計(jì)算機(jī),不僅可以縮短訓(xùn)練時(shí)間,還可以減少部署時(shí)間。總體而言,CS-1可能大幅縮短項(xiàng)目的整體時(shí)間,而這是人工智能研究效率的關(guān)鍵指標(biāo)。”

相比于GPU集群需要數(shù)周或數(shù)月才能建立起來、需要對現(xiàn)有模型進(jìn)行大量修改、消耗數(shù)十個(gè)數(shù)據(jù)中心的機(jī)器以及需要復(fù)雜的專用InfiniBand進(jìn)行集群搭建不同,CS-1的搭建使用需要數(shù)分鐘。
用戶只需接入標(biāo)準(zhǔn)的100Gb以太網(wǎng)到交換機(jī),就可以用驚人的速度開始訓(xùn)練模型。
Cerebras軟件平臺

上圖: 近距離觀察Cerebras芯片。圖片來源: Cerebras

CS-1非常易于部署和使用,但是Cerebras的目的不僅是加快訓(xùn)練時(shí)間,還要加快研究人員驗(yàn)證新想法所需的端到端時(shí)間,從模型定義到訓(xùn)練,從調(diào)試到部署。

Cerebras軟件平臺旨在允許機(jī)器學(xué)習(xí)研究人員在不改變現(xiàn)有工作流程的情況下利用CS-1的性能,用戶可以使用行業(yè)標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)框架(如TensorFlow和PyTorch)為CS-1定義模型訓(xùn)練。
一個(gè)強(qiáng)大的圖形編譯器自動將這些模型轉(zhuǎn)換為針對CS-1優(yōu)化的可執(zhí)行文件,并提供一組可視化工具進(jìn)行直觀的模型調(diào)試和分析。
費(fèi)爾德曼說: “我們使用開源軟件,并盡可能使程序簡單化。”但是目前所知的是,這個(gè)系統(tǒng)既不是基于x86,也不是基于Linux。
相關(guān)報(bào)道:
https://venturebeat.com/2019/11/19/cerebras-systems-deploys-the-worlds-fastest-ai-computer-at-argonne-national-lab/
https://techcrunch.com/2019/11/19/the-cerebras-cs-1-computes-deep-learning-ai-problems-by-being-bigger-bigger-and-bigger-than-any-other-chip/
https://venturebeat.com/2019/11/19/amd-launches-7-nm-radeon-pro-workstation-graphics-chips/

https://www.nytimes.com/2019/08/19/technology/artificial-intelligence-chip-cerebras.html

文章來源:大數(shù)據(jù)文摘

IEEE Spectrum

《科技縱覽》

官方微信公眾平臺



往期推薦

鮮為人知的計(jì)算機(jī)電源發(fā)展史

面向級高性能計(jì)算機(jī)的新型高性能互連網(wǎng)絡(luò)

數(shù)字計(jì)算機(jī)和晶體管的先驅(qū)--意大利的好利獲得

主站蜘蛛池模板: 山东| 芒康县| 岑溪市| 乌拉特后旗| 丘北县| 永济市| 钦州市| 许昌县| 新野县| 景谷| 灯塔市| 乐业县| 清流县| 武城县| 邵阳市| 漳州市| 克什克腾旗| 包头市| 浪卡子县| 嘉定区| 泰来县| 湟源县| 永泰县| 凤山县| 枣强县| 永川市| 镶黄旗| 普陀区| 个旧市| 紫阳县| 台前县| 抚州市| 仁布县| 和林格尔县| 弥勒县| 军事| 广宗县| 荔浦县| 辰溪县| 吉木萨尔县| 横山县|