共享內(nèi)存緩沖技術(shù) 眾核多計算模式系統(tǒng)構(gòu)建

2014-02-27 20:57 來源:電子信息網(wǎng) 作者:鈴鐺

0 引言

在航空航天、醫(yī)療服務(wù)、地質(zhì)勘探等復(fù)雜應(yīng)用領(lǐng)域,需要處理的數(shù)據(jù)量急劇增大,需要高性能的實時計算能力提供支撐。與多核處理器相比,眾核處理器計算資源密度更高、片上通信開銷顯著降低、性能/功耗比明顯提高,可為實時系統(tǒng)提供強大的計算能力。

在復(fù)雜應(yīng)用領(lǐng)域當中,不同應(yīng)用場景對計算的緩沖需求可能不同。例如,移動機器人在作業(yè)時,可能需要同時執(zhí)行路徑規(guī)劃、目標識別等多個任務(wù),這些任務(wù)需要同時執(zhí)行;在對遙感圖像處理時,需要對圖像數(shù)據(jù)進行配準、融合、重構(gòu)、特征提取等多個步驟,這些步驟間既需要同時執(zhí)行,又存在前驅(qū)后繼的關(guān)系。因此,基于眾核處理器進行計算模式的動態(tài)構(gòu)造,以適應(yīng)不同的應(yīng)用場景和應(yīng)用任務(wù)成為一種新的研究方向。文獻[1]研究了具有邏輯核構(gòu)造能力的眾核處理器體系結(jié)構(gòu),其基本思想是基于多個細粒度緩沖處理器核構(gòu)建成粗粒度邏輯核,將不斷增加的處理器核轉(zhuǎn)化為單線程串行應(yīng)用的性能提升。文獻提出并驗證了一種基于類數(shù)據(jù)流驅(qū)動模型的可重構(gòu)眾核處理器結(jié)構(gòu),實現(xiàn)了邏輯核處理器的運行時可重構(gòu)機制。文獻 提出了一種支持核資源動態(tài)分組的自適應(yīng)調(diào)度算法,通過對任務(wù)簇的拆分與合并,動態(tài)構(gòu)建可彈性分區(qū)的核邏輯組,實現(xiàn)核資源的隔離優(yōu)化訪問。

GPGPU(General - Purpose Computing on GraphicsProcessing Units)作為一種典型的眾核處理器,有關(guān)研究多面向單任務(wù)并發(fā)執(zhí)行方面的優(yōu)化以及應(yīng)用算法的加速。本文以GPGPU為平臺,通過研究和設(shè)計,構(gòu)建了單任務(wù)并行、多任務(wù)并行和多任務(wù)流式處理的多計算模式處理系統(tǒng)。

1 眾核處理機

1.1 眾核處理機結(jié)構(gòu)

眾核處理機是基于眾核控制單元(MPU)與眾核處理器(GPGPU)相結(jié)合的主、協(xié)處理方式構(gòu)建而成,其邏輯結(jié)構(gòu)如圖1所示。眾核處理機由眾核控制單元和眾核計算單元兩部分組成,其中眾核控制單元采用X86結(jié)構(gòu)的MPU,與眾核計算單元之間通過PCI-E總線進行互連。

1-4

1.2 CUDA流與Hyper-Q

在統(tǒng)一計算設(shè)備架構(gòu)(Compute Unified Device Ar-chitecture,CUDA)編程模型中,CUDA流(CUDA Stream)表示GPU的一個操作隊列,通過CUDA流來管理任務(wù)和并行。CUDA 流的使用分為兩種:一種是CUDA 在創(chuàng)建上下文時會隱式地創(chuàng)建一個CUDA流,從而命令可以在設(shè)備中排隊等待執(zhí)行;另一種是在編程時,在執(zhí)行配置中顯式地指定CUDA 流。不管以何種方式使用CUDA流,所有的操作在CUDA流中都是按照先后順序排隊執(zhí)行,然后每個操作按其進入隊列的順序離開隊列。換言之,隊列充當了一個FIFO(先入先出)緩沖區(qū),操作按照它們在設(shè)備中的出現(xiàn)順序離開隊列。

在GPU 中,有一個CUDA 工作調(diào)度器(CUDA WorkDistributor,CWD)的硬件單元,專門負責(zé)將計算工作分發(fā)到不同的流處理器中。在Fermi架構(gòu)中,雖然支持16 個內(nèi)核的同時啟動,但由于只有一個硬件工作隊列用來連接主機端CPU 和設(shè)備端GPU,造成并發(fā)的多個CUDA 流中的任務(wù)在執(zhí)行時必須復(fù)用同一硬件工作隊列,產(chǎn)生了虛假的流內(nèi)依賴關(guān)系,必須等待同一CUDA流中相互依賴的kernel執(zhí)行結(jié)束,另一CUDA流中的ker-nel才能開始執(zhí)行。而在Kepler GK110架構(gòu)中,新具有的Hyper-Q特性消除了只有單一硬件工作隊列的限制,增加了硬件工作隊列的數(shù)量,因此,在CUDA 流的數(shù)目不超過硬件工作隊列數(shù)目的前提下,允許每個CUDA流獨占一個硬件工作隊列,CUDA流內(nèi)的操作不再阻塞其他CUDA流的操作,多個CUDA流能夠并行執(zhí)行。

1 2 3 4 > 
內(nèi)存

一周熱門