北京2023年8月15日 /美通社/ -- 日前,在第五屆OCP China Day 2023(開(kāi)放計(jì)算中國(guó)技術(shù)峰會(huì))上,浪潮信息正式推出融合架構(gòu)3.0原型系統(tǒng),以開(kāi)創(chuàng)性的系統(tǒng)架構(gòu)設(shè)計(jì)實(shí)現(xiàn)了計(jì)算資源、存儲(chǔ)資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級(jí)、支持細(xì)粒度多主機(jī)共享高并發(fā)存儲(chǔ)、亞微秒級(jí)遠(yuǎn)端內(nèi)存共享訪問(wèn)等特性,可通過(guò)軟件定義實(shí)現(xiàn)"一套系統(tǒng),N類應(yīng)用",有效緩解當(dāng)前數(shù)據(jù)中心 "內(nèi)存墻"、"I/O墻"、"功耗墻"等瓶頸。
融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,將有望發(fā)展出一種全解耦、全池化、高可擴(kuò)展、易部署、易管理的新型硬件基礎(chǔ)架構(gòu),實(shí)現(xiàn)軟硬高度協(xié)同,加速數(shù)據(jù)中心釋放數(shù)字生產(chǎn)力,促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展以及與實(shí)體經(jīng)濟(jì)的深度融合。
智算時(shí)代,計(jì)算體系架構(gòu)亟待突破
當(dāng)前,數(shù)字化、智能化轉(zhuǎn)型已成為企業(yè)發(fā)展、科研創(chuàng)新和社會(huì)治理的剛性需求,也催生了云計(jì)算、大數(shù)據(jù)、人工智能等數(shù)字技術(shù)的蓬勃發(fā)展。然而,越來(lái)越多樣化的應(yīng)用對(duì)底層硬件資源的需求存在差異,導(dǎo)致使用傳統(tǒng)架構(gòu)的云、數(shù)、智、邊、端等各類技術(shù)平臺(tái)彼此獨(dú)立,硬件資源難以共享復(fù)用,造成資源浪費(fèi)的同時(shí)也使得運(yùn)維管理難度激增。
比如,以大模型為代表的AIGC技術(shù)需要基于海量數(shù)據(jù)集,在擁有成百上千AI加速卡的集群上對(duì)千億級(jí)參數(shù)的AI大模型進(jìn)行分布式訓(xùn)練,對(duì)異構(gòu)算力的需求更高;科學(xué)計(jì)算要求更高的計(jì)算精度,對(duì)通用算力的需求更高;內(nèi)存計(jì)算則希望讓更多應(yīng)用程序的數(shù)據(jù)駐留在內(nèi)存之中,使得數(shù)據(jù)和算力更接近,以提高處理速率,對(duì)內(nèi)存容量要求更高。但傳統(tǒng)架構(gòu)下,IT資源的擴(kuò)展是以整機(jī)形態(tài)來(lái)完成的,即便用戶亟需的是某種特定資源,但仍然需要為整機(jī)附帶的額外資源付費(fèi),這勢(shì)必增加了IT支出并造成資源閑置浪費(fèi)。
與此同時(shí),在算力供給側(cè)摩爾定律逐漸放緩和登納德縮放定律走向終結(jié),現(xiàn)有的計(jì)算體系架構(gòu)先天性不足被成倍放大,數(shù)據(jù)中心計(jì)算體系架構(gòu)的創(chuàng)新已迫在眉睫。
浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥表示:"當(dāng)前數(shù)據(jù)中心遇到的‘內(nèi)存墻'、‘I/O墻'、‘功耗墻'等現(xiàn)象,并不是孤立存在,它們是現(xiàn)有計(jì)算體系架構(gòu)不足放大后的體現(xiàn)。只有通過(guò)計(jì)算體系架構(gòu)的整體創(chuàng)新,才能徹底解決各種瓶頸帶來(lái)的挑戰(zhàn)。"
融合架構(gòu)3.0:以數(shù)據(jù)為中心的新架構(gòu)
在此背景下,浪潮信息推出融合架構(gòu)3.0原型系統(tǒng),打破了以往"以CPU為中心"的設(shè)計(jì)理念,而是從整體出發(fā),通過(guò)系統(tǒng)架構(gòu)創(chuàng)新解耦重構(gòu)服務(wù)器系統(tǒng),突破性實(shí)現(xiàn)了計(jì)算資源、存儲(chǔ)資源、內(nèi)存資源、異構(gòu)加速資源等核心IT資源徹底解耦與池化,可支持多種通用處理器平臺(tái)與GPU、FPGA、DPU等多種異構(gòu)加速單元的協(xié)同計(jì)算,并可通過(guò)軟件定義實(shí)現(xiàn)資源協(xié)同動(dòng)態(tài)調(diào)度。
這種基于硬件重構(gòu)技術(shù)而開(kāi)發(fā)的新一代基礎(chǔ)架構(gòu),將實(shí)現(xiàn)更加自由的資源隨需定義,為上層軟件定義系統(tǒng)提供更出色的靈活性,使其能夠根據(jù)應(yīng)用特點(diǎn),以高度自動(dòng)化的方式分配與重新配置硬件資源,不再受到非動(dòng)態(tài)設(shè)置的硬件基礎(chǔ)設(shè)施的限制,讓數(shù)據(jù)中心內(nèi)部的人工智能、科學(xué)計(jì)算、云計(jì)算、大數(shù)據(jù)等各類應(yīng)用統(tǒng)一運(yùn)行于同一架構(gòu)之上,實(shí)現(xiàn)多技術(shù)平臺(tái)融合,加速業(yè)務(wù)創(chuàng)新及數(shù)字化轉(zhuǎn)型。
與傳統(tǒng)的CPU為中心的計(jì)算架構(gòu)不同,融合架構(gòu)3.0原型系統(tǒng)以數(shù)據(jù)為中心,實(shí)現(xiàn)計(jì)算節(jié)點(diǎn)內(nèi)部各種算力芯片共享內(nèi)存數(shù)據(jù)、統(tǒng)一編址和協(xié)同工作;在跨節(jié)點(diǎn)之間則通過(guò)智能數(shù)據(jù)處理單元和高速網(wǎng)絡(luò)形成分布式互連交換,實(shí)現(xiàn)CPU、GPU、FPGA等各種加速芯片的算力協(xié)同以及內(nèi)存池化、新型存儲(chǔ)資源池化,具有節(jié)點(diǎn)間的數(shù)據(jù)訪問(wèn)延遲極低,支持高效彈性擴(kuò)展等優(yōu)勢(shì)。此外,融合架構(gòu)系統(tǒng)可以實(shí)現(xiàn)更為靈活的資源重構(gòu),為人工智能、大數(shù)據(jù)等多種應(yīng)用場(chǎng)景提供強(qiáng)大的算力支撐。
內(nèi)存解耦與池化一直是業(yè)界的熱點(diǎn)與難點(diǎn),隨著以CXL為代表的串行緩存一致性總線的出現(xiàn),給主機(jī)和遠(yuǎn)端共享內(nèi)存之間提供了低延時(shí)的訪問(wèn)路徑以及緩存一致性保證,為大規(guī)模內(nèi)存擴(kuò)展與內(nèi)存資源池化提供了可能。融合架構(gòu)3.0原型系統(tǒng)突破內(nèi)存解耦池化關(guān)鍵技術(shù),研制新型應(yīng)用串行緩存一致性總線及其交換技術(shù)的內(nèi)存模組和內(nèi)存池化系統(tǒng),保障主機(jī)系統(tǒng)對(duì)大容量、高帶寬內(nèi)存的應(yīng)用需求。
趙帥介紹,融合架構(gòu)3.0原型系統(tǒng)首創(chuàng)JBOM獨(dú)立內(nèi)存資源池設(shè)計(jì),創(chuàng)新實(shí)現(xiàn)高密度內(nèi)存擴(kuò)展方案,主機(jī)系統(tǒng)遠(yuǎn)端內(nèi)存擴(kuò)展技術(shù)領(lǐng)先業(yè)界。通過(guò)軟件定義系統(tǒng)設(shè)計(jì)及CXL高性能交換技術(shù),率先實(shí)現(xiàn)內(nèi)存資源池化與細(xì)粒度多主機(jī)共享。
系統(tǒng)互連設(shè)計(jì)方面,解耦與池化帶來(lái)了新的互連挑戰(zhàn),整系統(tǒng)通過(guò)設(shè)計(jì)供電控制、復(fù)位、時(shí)鐘鎖定等協(xié)同工作方式實(shí)現(xiàn)解耦單元整體運(yùn)行。此外,隨著數(shù)據(jù)速率的不斷攀升和系統(tǒng)鏈路變得更加復(fù)雜,解耦池化系統(tǒng)互連鏈路互連延展已經(jīng)接近極限,系統(tǒng)針對(duì)復(fù)雜鏈路高速互連進(jìn)行高精度的擬合仿真研究,準(zhǔn)確分析系統(tǒng)互連鏈路多樣化拓?fù)浜蛡鬏斔俾实臉O限。
此外,融合架構(gòu)3.0原型系統(tǒng)開(kāi)發(fā)軟件定義管理系統(tǒng),實(shí)現(xiàn)拓?fù)淝袚Q、端口動(dòng)態(tài)管理、多主機(jī)資源共享與資源動(dòng)態(tài)分區(qū)等高級(jí)功能;開(kāi)發(fā)資源管理軟件,實(shí)現(xiàn)設(shè)備利用率監(jiān)控、設(shè)備分配情況配置與管理、I/O吞吐量監(jiān)控和鏈路健康診斷,保障主機(jī)系統(tǒng)硬件資源的動(dòng)態(tài)部署與高效管理。
趙帥表示:"融合架構(gòu)3.0原型系統(tǒng)效率可比上一代軟件虛擬化系統(tǒng)提升一到兩個(gè)數(shù)量級(jí),可擴(kuò)展性提高2~4倍,系統(tǒng)延時(shí)降低90%,PUE低于1.1。隨著數(shù)字經(jīng)濟(jì)、人工智能持續(xù)發(fā)展,企業(yè)的各項(xiàng)業(yè)務(wù)越來(lái)越依賴數(shù)據(jù)及其價(jià)值,算力技術(shù)也需要不斷演進(jìn),融合架構(gòu)3.0原型系統(tǒng)的發(fā)布,有助于企業(yè)提升數(shù)據(jù)管理效率,最大化釋放數(shù)據(jù)價(jià)值。"