亚洲欧美第一页_禁久久精品乱码_粉嫩av一区二区三区免费野_久草精品视频

蟲蟲首頁| 資源下載| 資源專輯| 精品軟件
登錄| 注冊

您現(xiàn)在的位置是:首頁 > 技術(shù)閱讀 >  清華發(fā)布《AI芯片技術(shù)白皮書》:新計算范式,挑戰(zhàn)馮諾依曼、CMOS瓶頸

清華發(fā)布《AI芯片技術(shù)白皮書》:新計算范式,挑戰(zhàn)馮諾依曼、CMOS瓶頸

時間:2024-01-15

在由北京未來芯片技術(shù)高精尖創(chuàng)新中心和清華大學微電子學研究所聯(lián)合主辦的第三屆未來芯片論壇上,清華大學正式發(fā)布了《人工智能芯片技術(shù)白皮書(2018)》。

《白皮書》首次整合了國際化的學術(shù)和產(chǎn)業(yè)資源,緊扣學術(shù)研究和產(chǎn)業(yè)發(fā)展前沿,對人工智能芯片技術(shù)進行了深入探討、專業(yè)闡述,完成了對AI芯片各種技術(shù)路線梳理及對未來技術(shù)發(fā)展趨勢和風險預判。

據(jù)悉,《白皮書》由斯坦福大學、清華大學、香港科技大學、臺灣新竹清華大學,北京半導體行業(yè)協(xié)會及新思科技的頂尖研究者和產(chǎn)業(yè)界資深專家,包括10余位IEEE Fellow共同編寫完成。

無芯片不AI,新計算范式來襲 

近些年隨著大數(shù)據(jù)的積聚、理論算法的革新、計算能力的提升及網(wǎng)絡設施的發(fā)展,使得持續(xù)積累了半個多世紀的人工智能產(chǎn)業(yè),又一次迎來革命性的進步,人工智能的研究和應用進入全新的發(fā)展階段。

實際上,人工智能產(chǎn)業(yè)得以快速發(fā)展,都離不開目前唯一的物理基礎(chǔ)——芯片。可以說,“無芯片不AI”。

目前,關(guān)于AI芯片的定義沒有一個嚴格和公認的標準。較為寬泛的看法是面向人工智能應用的芯片都可以稱為AI芯片。具體來說,報告中探討的AI芯片主要分為三類,一是經(jīng)過軟硬件優(yōu)化可高效支持AI應用的通用芯片,如GPU;二是側(cè)重加速機器學習(尤其是神經(jīng)網(wǎng)絡、深度學習)算法的芯片,這也是目前AI芯片中最多的形式;三是受生物腦啟發(fā)設計的神經(jīng)形態(tài)計算芯片。

AI芯片的計算既不脫離傳統(tǒng)計算,也具有新的計算特質(zhì),主要特點有三:處理內(nèi)容往往是非結(jié)構(gòu)化數(shù)據(jù),如視頻、圖像及語音等,需要通過樣本訓練、擬合基環(huán)境交互等方式,利用大量數(shù)據(jù)來訓練模型,再用訓練好的模型處理數(shù)據(jù);處理過程需要很大的計算量,基本的計算主要是線性代數(shù)運算,大規(guī)模并行計算硬件更為適合;處理過程參數(shù)量大,需要巨大的存儲容量,高帶寬、低延時的訪存能力,及計算單元和存儲器件間豐富且靈活的連接。

AI芯片的新計算范式,也為芯片提出了處理非結(jié)構(gòu)化數(shù)據(jù)、計算量大及存儲和計算間的訪問連接等新問題。

AI芯片發(fā)展現(xiàn)狀:云、邊結(jié)合 

在應用場景上,AI芯片的應用主要分為云端和終端,以深度學習的算法來說,云端人工智能硬件負責“訓練+推斷”,終端人工智能硬件負責“推斷”,因而終端的計算量更小,相對沒有傳輸問題。但從自動駕駛、智慧家庭,到loT設備等,速度、能效、安全和硬件成本等是重要因素。

云端AI計算:目前各大科技巨頭紛紛在自有云平臺基礎(chǔ)上搭載人工智能系統(tǒng),主要有IBM的waston、亞馬遜的AWS、以及國內(nèi)的阿里云、百度云平臺等。其中英偉達的GPU采用更為廣泛,賽靈思、英特爾、百度等廠商也在積極采用FPGA在云端進行加速,一些初創(chuàng)公司,如深鑒科技等也在開發(fā)專門支持 FPGA 的 AI 開發(fā)工具。另外,除GPU和FPGA外,AI領(lǐng)域?qū)S眉軜?gòu)芯片ASIC則因其更好的性能和功耗,成為云端領(lǐng)域新的攪局者,如谷歌的TPU。

邊緣AI計算:隨著人工智能應用生態(tài)的爆發(fā),越來越多的AI應用開始在端設備上開發(fā)和部署。

智能手機是目前應用最為廣泛的邊緣計算設備,包括蘋果、華為、高通、聯(lián)發(fā)科和三星在內(nèi)的手機芯片廠商紛紛推出或者正在研發(fā)專門適應 AI 應用的芯片產(chǎn)品。另外,也有很多初創(chuàng)公司加入這個領(lǐng)域,如地平線機器人、寒武紀、深鑒科技、元鼎音訊等。傳統(tǒng)的IP 廠商,包括 ARM、Synopsys 等公司也都為包括手機、智能攝像頭、無人機、工業(yè)和服務機器人、智能音箱以及各種物聯(lián)網(wǎng)設備等邊緣計算設備開發(fā)專用 IP 產(chǎn)品。

自動駕駛是未來邊緣AI 計算的最重要應用之一,MobileEye SOC 和 NVIDIA Drive PX 系列提供神經(jīng)網(wǎng)絡的處理能力可以支持半自動駕駛和完全自動駕駛。

目前云和邊緣設備在各種AI應用中往往是配合工作。最普遍的方式是在云端訓練神經(jīng)網(wǎng)絡,然后在云端(由邊緣設備采集數(shù)據(jù))或者邊緣設備進行推斷。

AI芯片的技術(shù)挑戰(zhàn):馮·諾依曼、CMOS工藝和器件瓶頸 

由于前文所述的AI芯片需要滿足高效的數(shù)據(jù)訪問,以及深度學習下的新的計算范式,AI芯片在發(fā)展上,也遇到了一些瓶頸問題,特別是馮·諾依曼瓶頸,及CMOS工藝和器件瓶頸。

馮·諾依曼瓶頸:在傳統(tǒng)“馮·諾依曼架構(gòu)”中,計算模塊和存儲單元互相分離,數(shù)據(jù)從處理單元外的存儲器提取,處理完之后再寫回存儲器。每一項任務,如果有十個步驟,那么CPU會依次進行十次讀取、執(zhí)行,再讀取、再執(zhí)行,這就造成了延時,以及大量功耗花費在了數(shù)據(jù)讀取上。

可以不夸張地說,大部分針對AI,特別是加速神經(jīng)網(wǎng)絡處理而提出的硬件架構(gòu)創(chuàng)新都是在和這個問題做斗爭。概括來說,目前的解決思路包括減少訪問存儲器的數(shù)量,降低訪問存儲器的代價。

CMOS工藝和器件瓶頸:目前,人工智能,特別都是機器學習的發(fā)展將需要更有力的、超過每秒百億次運算能力的計算系統(tǒng),而構(gòu)建這些系統(tǒng)的基礎(chǔ)是CMOS技術(shù)的芯片,而CMOS工藝能不斷提高系統(tǒng)性能主要得益于集成尺寸的縮小。過去30年,摩爾定律很好預測了這種計算進步,但由于基礎(chǔ)物理原理限制和經(jīng)濟的原因,持續(xù)提高集成密度變得越來越困難。

目前的解決方案是通過開發(fā)提供大量存儲空間的片上存儲器技術(shù),并探索利用片上存儲器去構(gòu)建未來的智能芯片架構(gòu)。另外,近年來,可以存儲模擬數(shù)值的非易失性存儲器發(fā)展迅猛,能同時具有存儲和處理數(shù)據(jù)能力,可以破解傳統(tǒng)計算體系結(jié)構(gòu)的一些基本限制,有望實現(xiàn)類腦突觸功能。

AI芯片架構(gòu)設計趨勢:云端、邊緣設備、軟件定義 

而針對以上AI芯片計算和應用上的需求,目前云端和邊緣設備的AI芯片都在進行新的研發(fā)。

AI云端訓練和推斷:大存儲、高性能、可伸縮。從英偉達和谷歌的設計實踐可以看出云端AI芯片在架構(gòu)層面,技術(shù)發(fā)展的幾個特點和趨勢:存儲的需求(容量和訪問速度原來越高);處理能力推向每秒千萬億,并支持靈活伸縮和部署;專門針對推斷需求的FPGA和ASIC。

邊緣設備:目前,衡量AI 芯片實現(xiàn)效率的一個重要指標是能耗效率——TOPs/W,這也成為很多技術(shù)創(chuàng)新競爭的焦點。

其中,降低推斷的量化比特精度是最有效的方法;除降低精度外,提升基本運算單元MAC的效率還可以結(jié)合一些數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換來減少運算量;另一個重要的方向是減少對存儲器的訪問,如把神經(jīng)網(wǎng)絡運算放在傳感器或存儲器中;此外,在邊緣設備的AI芯片中,也可以用各種低功耗設計方法來進一步降低整體功耗。最后,終端設備AI芯片往往呈現(xiàn)一個異構(gòu)系統(tǒng),專門的AI加速器和CPU、GPU、ISP、DSP等協(xié)同工作以達到最佳效率。

軟件定義芯片:通用處理器如CPU、GPU,缺乏針對AI算法的專用計算、存儲單元設計,功耗大;專用芯片ASIC功能單一;現(xiàn)場可編程陣列FPGA重構(gòu)時間開銷過大,且過多的冗余邏輯導致其功耗過高。以上傳統(tǒng)芯片都難以實現(xiàn)AI芯片所需要的“軟件定義芯片”。

可重構(gòu)計算技術(shù)允許硬件架構(gòu)和功能隨軟件變化而變化,具備處理器的靈活性和專用集成電路的高性能、低功耗,是實現(xiàn)“軟件定義芯片”的核心,被公認為是突破性的下一代集成電路技術(shù),清華大學的AI芯片Thinker目前采用可重構(gòu)計算框架,支持卷積神經(jīng)網(wǎng)絡、全連接神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡等多種AI算法。

AI芯片中的存儲技術(shù)、新興計算技術(shù)及神經(jīng)形態(tài)芯片

如前所述,提高AI芯片的性能和能效的關(guān)鍵之一在于數(shù)據(jù)訪問。而在傳統(tǒng)的馮·諾依曼體系結(jié)構(gòu)中,數(shù)據(jù)從存儲器串行提取并寫入到工作內(nèi)存,導致相當長的延遲和能量開銷。

近期,面向數(shù)字神經(jīng)網(wǎng)絡的極速器(GPU、FPGA和ASIC)迫切需要AI友好型存儲器;中期,基于存內(nèi)計算的神經(jīng)網(wǎng)絡可以為規(guī)避馮·諾依曼瓶頸問題提供有效的解決方案;后期,基于憶阻器的神經(jīng)形態(tài)計算可以模擬人類的大腦,是AI芯片遠期解決方案的候選之一。

而對應的新興計算技術(shù)包括近內(nèi)存計算、存內(nèi)計算,以及基于新型存儲器的人工神經(jīng)網(wǎng)絡和生物神經(jīng)網(wǎng)絡。

神經(jīng)形態(tài)芯片,即“仿生電腦”。如前所說,對于馮·諾依曼、CMOS工藝和器件瓶頸形成的AI芯片存儲、計算間的問題,神經(jīng)形態(tài)計算是一種新的路徑。

近些年,神經(jīng)形態(tài)計算也用來指采用模擬、數(shù)字、數(shù)模混合VLSI以及軟件系統(tǒng)實現(xiàn)的神經(jīng)系統(tǒng)模型。其將數(shù)字處理器當作神經(jīng)元,把內(nèi)存作為突觸,內(nèi)存、CPU和通信部件完全集成在一起,采用模擬人腦神經(jīng)元結(jié)構(gòu)來提升計算能力。每個神經(jīng)元計算都是本地的,且從全局來看神經(jīng)元們是分布式在工作。受到腦結(jié)構(gòu)研究的成果啟發(fā),研制出的神經(jīng)形態(tài)芯片具有低功耗、低延遲、高速處理、時空聯(lián)合等特點。

人工智能的未來:算法、架構(gòu)、器件的不斷探索 

“未來能否有一個終極算法來實現(xiàn)通用人工智能?”這個問題還沒有人能給出肯定的答案。芯片是人工智能算法的物理基礎(chǔ),它與算法唇齒相依。如果能有統(tǒng)一的終極算法出現(xiàn),那么我們很可能會看到一個終極芯片出現(xiàn)。

但在未來很長一段時期,不同的應用仍然需要不同的算法(也包括傳統(tǒng)算法),因此我們還必須探索不同的架構(gòu),探索新的器件甚至材料。隨著底層芯片技術(shù)的進步,人工智能算法也將獲得更好的支持和更快的發(fā)展。

CMOS 技術(shù)與新興信息技術(shù)的交叉融合,開源軟件到開源硬件的潮流漸顯,預示著將迎來一個前所未有的協(xié)同創(chuàng)新機遇期。

編輯 ∑ Gemini

文章來源:機器人


IEEE Spectrum

《科技縱覽》

官方微信公眾平臺



往期推薦

下一個牛頓會是AI物理學家嗎?

肉體死亡,意識永存—AI讓人類永生?

卡耐基梅隆大學專家談核心技術(shù)市場化:

「AI 周邊相關(guān)機遇最大」

主站蜘蛛池模板: 九江市| 永兴县| 台江县| 陆丰市| 大庆市| 阿克苏市| 深州市| 榆社县| 鹿邑县| 曲水县| 临颍县| 呼玛县| 长葛市| 邻水| 锡林浩特市| 塔河县| 习水县| 博乐市| 肇东市| 岚皋县| 宜丰县| 长治市| 淅川县| 汾西县| 东丽区| 晋江市| 汾阳市| 鄢陵县| 岳西县| 昌黎县| 依安县| 新晃| 古田县| 桃源县| 崇左市| 七台河市| 十堰市| 涪陵区| 揭西县| 滦平县| 承德县|