AI開發(fā)利器—深度學(xué)習(xí)框架Caffe-MPI加速比最好

2017-09-22 09:32 來源:美通社 作者:Janet

近日,在2017人工智能計(jì)算大會(huì)(AICC)上,香港浸會(huì)大學(xué)副教授褚曉文發(fā)表了目前主流深度學(xué)習(xí)框架評(píng)測的主題報(bào)告,報(bào)告顯示由浪潮牽頭開發(fā)的開源項(xiàng)目Caffe-MPI,與其他主流框架相比取得了最佳的加速比,并在GoogLeNet網(wǎng)絡(luò)模型中取得最佳性能。

根據(jù)報(bào)告顯示數(shù)據(jù),由浪潮開發(fā)的Caffe-MPI 2.0,在4節(jié)點(diǎn)16塊P40 GPU的計(jì)算集群上,采用Imagenet數(shù)據(jù)集。采用GoogLeNet模型(Batchsize=128)時(shí),16卡的訓(xùn)練性能為5886張圖片/秒,較單卡提升14.2倍;采用ResNet模型(Batchsize=32)時(shí)16卡訓(xùn)練性能為1372張圖片/秒,較單卡提升15.34倍,擴(kuò)展效率高達(dá)96%。Caffe-MPI超越了CNTK和MXNet,成為加速比最好的深度學(xué)習(xí)框架,也是在GoogLeNet模型下性能最好的深度學(xué)習(xí)框架。

香港浸會(huì)大學(xué)副教授褚曉文表示,目前在測的所有深度學(xué)習(xí)框架中,浪潮Caffe-MPI展現(xiàn)出最好的加速比性能,相信對(duì)于所有需要將Caffe擴(kuò)展到多機(jī)環(huán)境的用戶,浪潮Caffe-MPI將是最好的選擇。

Caffe-MPI 2.0出色的加速比得益于在并行算法設(shè)計(jì)上的創(chuàng)新突破。Caffe-MPI設(shè)計(jì)了兩層通信模式:節(jié)點(diǎn)內(nèi)的GPU卡間通信及節(jié)點(diǎn)間的RDMA全局通信,通過調(diào)用NCCL 2.0實(shí)現(xiàn)。這種設(shè)計(jì)極大降低了網(wǎng)絡(luò)通信的壓力,并克服了傳統(tǒng)通信模式中PCIE與網(wǎng)絡(luò)之間帶寬不均衡的影響,非常適合現(xiàn)在的高密度GPU服務(wù)器。

同時(shí),Caffe-MPI 2.0還設(shè)計(jì)實(shí)現(xiàn)了深層神經(jīng)網(wǎng)絡(luò)模型各層計(jì)算和通訊的異步,合并了多層待通信數(shù)據(jù)然后在到達(dá)一定量級(jí)時(shí)進(jìn)行通信,有效避免了層內(nèi)部數(shù)據(jù)量較小時(shí)的通信延遲。此外,Caffe-MPI 2.0還提供了更好的cuDNN兼容性,用戶可以無縫調(diào)用最新的cuDNN版本實(shí)現(xiàn)更大的性能提升。這些設(shè)計(jì)細(xì)節(jié)使得Caffe-MPI 2.0能夠在當(dāng)前流行的深度學(xué)習(xí)框架下的集群訓(xùn)練中,實(shí)現(xiàn)近似線性的擴(kuò)展。

Caffe-MPI是首個(gè)集群并行版的Caffe深度學(xué)習(xí)計(jì)算框架,基于伯克利Caffe框架,由浪潮主導(dǎo)開發(fā)并已在Github上開源公布所有代碼,其采用成熟的MPI技術(shù)對(duì)Caffe予以數(shù)據(jù)并行的優(yōu)化,目標(biāo)是解決深度學(xué)習(xí)計(jì)算模型訓(xùn)練的效率問題。

2017人工智能計(jì)算大會(huì)(AI Computing Conference簡稱AICC)由中國工程院信息與電子工程學(xué)部主辦、浪潮集團(tuán)承辦,旨是圍繞AI當(dāng)下需求及未來發(fā)展,從計(jì)算創(chuàng)新著眼,聯(lián)合從事AI計(jì)算及應(yīng)用的公司、用戶、專家、開發(fā)者共同打造探討促進(jìn)AI計(jì)算的交流合作平臺(tái),推動(dòng)AI產(chǎn)業(yè)的可持續(xù)發(fā)展。本次有海內(nèi)外數(shù)十位知名專家圍繞AI計(jì)算創(chuàng)新主題進(jìn)行研討報(bào)告,吸引了來自各行業(yè)的數(shù)千名專業(yè)人士參與。

AI開發(fā)利器 深度學(xué)習(xí)框架Caffe-MPI加速比

相關(guān)閱讀

暫無數(shù)據(jù)

一周熱門