檢查當(dāng)前處理器可用的simd指令的類型,希望對(duì)各位有用
上傳時(shí)間: 2014-12-05
上傳用戶:dyctj
UCSC Kestrel and Beyond寫的一篇關(guān)于simd的講義,很好,很使用,也可以作為一個(gè)PPT模板使用的經(jīng)典例子哦
標(biāo)簽: Kestrel Beyond UCSC simd
上傳時(shí)間: 2017-08-04
上傳用戶:zhouchang199
利用分治策略,提出一種基于simd共享存儲(chǔ)計(jì)算機(jī)模型的并行背包問題求解算法.算法允許使用O(2n/4)1− ε個(gè)并行處理機(jī)單元,0≤≤ε1,O(2n/2)個(gè)存儲(chǔ)單元,在O(2n/4(2n/4)ε)時(shí)間內(nèi)求解n維背包問題,算法的成本為O(2n/2).將提出的算法與已有文獻(xiàn)結(jié)論進(jìn)行對(duì)比表明,該算法改進(jìn)了已有文獻(xiàn)的相應(yīng)結(jié)果,是求解背包問題的成本最優(yōu)并行算法.同時(shí)還指出了相關(guān)文獻(xiàn)主要結(jié)論的錯(cuò)誤.
上傳時(shí)間: 2014-07-23
上傳用戶:ommshaggar
用于實(shí)行simd 算法的核心手冊(cè) 在intel x 86 , powerpc , mips, arm 處理器上都有相關(guān)應(yīng)用,用于處理向量,加速算法,圖像圖像處理,模式識(shí)別,數(shù)字信號(hào)處理等領(lǐng)域
上傳時(shí)間: 2017-03-15
上傳用戶:Eric1084245043
MIPS32 simd指令架構(gòu) 官方指南 學(xué)習(xí)君正xburst 必備
上傳時(shí)間: 2021-12-26
上傳用戶:
大多數(shù)現(xiàn)在的PCL打印機(jī)驅(qū)動(dòng)程序都是將需要打印的文件(包括圖形或者文本)處理成JPEG文件發(fā)送到打印機(jī)進(jìn)行打印,因?yàn)檫@樣一方面可以減少發(fā)送給打印機(jī)的數(shù)據(jù)量,一方面可以極大的簡(jiǎn)化驅(qū)動(dòng)程序的開發(fā)。而在打印機(jī)內(nèi)部,這些JPEG文件又被解碼成BMP文件進(jìn)行進(jìn)一步的處理。采用這種方式工作的打印機(jī)JPEG解碼的工作占據(jù)了其CPU時(shí)間的一半以上,所以JPEG文件解碼引擎是打印機(jī)的核心之一,提高JPEG的解碼速度對(duì)于提高打印機(jī)的處理能力至關(guān)重要。 同時(shí),JPEG文件解碼工作是一個(gè)計(jì)算密集型的作業(yè),主要有兩個(gè)辦法提高它的速度:一個(gè)是設(shè)計(jì)更高效的算法,一個(gè)是采用性能更加強(qiáng)勁的CPU設(shè)備。在單核CPU的嵌入式環(huán)境中,JPEG編解碼速度已經(jīng)幾乎到了極限,難有提升的空間,然而近兩年多核嵌入式芯片的出現(xiàn),為大幅度提升它的性能提供了可能。 本文基于嵌入式的Linux平臺(tái),采用ARM11 MPCore4核處理器,針對(duì)PCL,XL打印機(jī)控制語(yǔ)言的JPEG文件解碼設(shè)計(jì)和實(shí)現(xiàn)了一個(gè)高速引擎,主要內(nèi)容為: 分析和解碼PCL,XL文件,提取出其中的JPEG文件。 對(duì)JPEG文件實(shí)現(xiàn)并行化解碼,在多個(gè)處理器核上并行處理,并針對(duì)多核處理器構(gòu)架進(jìn)行內(nèi)存讀取等方面的優(yōu)化。 針對(duì)多核處理器的特點(diǎn)和優(yōu)勢(shì),設(shè)計(jì)和實(shí)現(xiàn)多線程調(diào)度算法。 總結(jié)和提取數(shù)據(jù),分析多核處理器相對(duì)于單核處理器的性能提升。 另外,為便于讀者理解,文中簡(jiǎn)要介紹了ARM(simd)指令集,嵌入式匯編以及與硬件相關(guān)的一些概念。
上傳時(shí)間: 2013-06-16
上傳用戶:scorpion
The LPC4350/30/20/10 are ARM Cortex-M4 based microcontrollers for embeddedapplications. The ARM Cortex-M4 is a next generation core that offers systemenhancements such as low power consumption, enhanced debug features, and a highlevel of support block integration.The LPC4350/30/20/10 operate at CPU frequencies of up to 150 MHz. The ARMCortex-M4 CPU incorporates a 3-stage pipeline, uses a Harvard architecture withseparate local instruction and data buses as well as a third bus for peripherals, andincludes an internal prefetch unit that supports speculative branching. The ARMCortex-M4 supports single-cycle digital signal processing and simd instructions. Ahardware floating-point processor is integrated in the core.The LPC4350/30/20/10 include an ARM Cortex-M0 coprocessor, up to 264 kB of datamemory, advanced configurable peripherals such as the State Configurable Timer (SCT)and the Serial General Purpose I/O (SGPIO) interface, two High-speed USB controllers,Ethernet, LCD, an external memory controller, and multiple digital and analog peripherals
上傳時(shí)間: 2013-10-28
上傳用戶:15501536189
自20世紀(jì)70年代初到現(xiàn)在,并行計(jì)算機(jī)的發(fā)展已有20多年的歷史.在此期間,出現(xiàn)了各種不同類型的并行機(jī),包括歷史上曾經(jīng)風(fēng)行一時(shí)的并行向量機(jī)PVP(Parallel Vector Processor)和simd 計(jì)算機(jī),但它們現(xiàn)在均已衰落了下來
標(biāo)簽:
上傳時(shí)間: 2016-02-20
上傳用戶:lili123
一個(gè)簡(jiǎn)單的基于CUDA的示例代碼,使用simd的方法實(shí)現(xiàn)向量加法;運(yùn)行在nVidia的G80系列顯卡的GPGPU上;需要nVidia CUDA SDK,169以上版本的驅(qū)動(dòng)。對(duì)于學(xué)習(xí)CUDA很有幫助。
上傳時(shí)間: 2013-12-01
上傳用戶:xiaoyunyun
蟲蟲下載站版權(quán)所有 京ICP備2021023401號(hào)-1