北京2023年9月11日 /美通社/ -- 近期,國(guó)際權(quán)威研究機(jī)構(gòu)高德納(Gartner)發(fā)布中國(guó)AIOps市場(chǎng)指南報(bào)告《Market Guide for AIOps, China》,報(bào)告從數(shù)據(jù)中心運(yùn)維需求變化、技術(shù)影響等角度,為中國(guó)的組織和I&O領(lǐng)導(dǎo)在采用或推進(jìn)AIOps提供了深刻見解和實(shí)施建議。其中,浪潮信息InManage作為唯一的一款服務(wù)器廠商軟件產(chǎn)品,憑借領(lǐng)先的AI能力,以及多個(gè)行業(yè)數(shù)據(jù)中心智能化運(yùn)維的成功經(jīng)驗(yàn),獲評(píng)AIOps標(biāo)桿。
大模型對(duì)數(shù)據(jù)中心運(yùn)維帶來(lái)全新挑戰(zhàn)
在AIGC等大模型創(chuàng)新技術(shù)的驅(qū)動(dòng)下,算力成為了行業(yè)關(guān)注的焦點(diǎn)。為滿足數(shù)字經(jīng)濟(jì)對(duì)于多元算力的旺盛需求,算力規(guī)模迅速增長(zhǎng),給數(shù)據(jù)中心運(yùn)維帶來(lái)全新挑戰(zhàn),構(gòu)建智能化的運(yùn)維管理AIOps 能力勢(shì)在必行。
首先,數(shù)據(jù)中心運(yùn)維的難度與質(zhì)量要求不斷提升。在大模型訓(xùn)練等負(fù)載的驅(qū)動(dòng)下,數(shù)據(jù)中心部署了越來(lái)越多的設(shè)備與應(yīng)用,這些設(shè)備與應(yīng)用在架構(gòu)、管理接口等方面存在很大差異,因此系統(tǒng)的復(fù)雜性與數(shù)據(jù)中心的不確定性增大,可能會(huì)對(duì)數(shù)據(jù)中心業(yè)務(wù)穩(wěn)定性造成嚴(yán)重的影響。
其次是數(shù)據(jù)中心運(yùn)維效率亟待提升。伴隨著數(shù)據(jù)中心設(shè)備規(guī)模的不斷增長(zhǎng)與運(yùn)維難度的提升,運(yùn)維的工作量呈現(xiàn)出大幅增長(zhǎng)趨勢(shì),大量重復(fù)冗余的工作不僅容易出錯(cuò),也降低數(shù)據(jù)中心運(yùn)維效率,亟需將運(yùn)維人員從復(fù)雜、依賴人工的告警和修復(fù)等運(yùn)維工作中解放出來(lái)。
再次是對(duì)數(shù)據(jù)中心設(shè)備故障智能診斷、預(yù)測(cè)性運(yùn)維需求的提升。為保障數(shù)據(jù)中心穩(wěn)定運(yùn)行,需要盡可能地降低設(shè)備的故障率,通過(guò)精準(zhǔn)的故障預(yù)警、預(yù)測(cè)性運(yùn)維等方式,提前解決潛在隱患,提升數(shù)據(jù)中心各類 IT 資產(chǎn)的使用率。
同時(shí),如何完善數(shù)據(jù)中心IT設(shè)備能耗管理是運(yùn)維要考慮的一個(gè)關(guān)鍵。由于人工智能、數(shù)據(jù)分析、數(shù)據(jù)庫(kù)等工作負(fù)載對(duì)計(jì)算能力的需求不斷增長(zhǎng),以及半導(dǎo)體工藝的巨大改進(jìn),CPU、GPU等多元芯片已經(jīng)集成了極多的晶體管。盡管單核功耗因工藝技術(shù)的改進(jìn)而不斷下降,但芯片的熱設(shè)計(jì)功率 (TDP) 卻由于性能大幅度的增長(zhǎng)而在不斷增加,數(shù)據(jù)中心能耗管理的不完善可能會(huì)導(dǎo)致部分設(shè)備隨機(jī)斷電或由于功率不足而出現(xiàn)性能降低等問(wèn)題。
AIOps引領(lǐng)數(shù)據(jù)中心運(yùn)維的進(jìn)化之路
面對(duì)數(shù)據(jù)中心的多重運(yùn)維挑戰(zhàn),AIOps即智能運(yùn)維已被業(yè)界廣泛使用。早在2016年,Gartner就已將AIOps納入中國(guó)ICT技術(shù)成熟度曲線的關(guān)鍵技術(shù),指出在人工智能、大模型等新技術(shù)的促進(jìn)下,AIOps成為未來(lái)數(shù)據(jù)中心運(yùn)維發(fā)展的重要方向,并呈現(xiàn)出快速替代傳統(tǒng)運(yùn)維的趨勢(shì)。以軟件定義、API驅(qū)動(dòng)的AIOps模塊化平臺(tái)架構(gòu)將有助于實(shí)現(xiàn)快速產(chǎn)品創(chuàng)新,將基礎(chǔ)設(shè)施、運(yùn)維納入統(tǒng)一發(fā)展方向規(guī)劃,具備統(tǒng)一數(shù)據(jù)采集、存儲(chǔ),強(qiáng)大的數(shù)據(jù)分析和機(jī)器學(xué)習(xí)能力,提供自動(dòng)化運(yùn)維和決策支持的能力并具備可視化的操作界面。
對(duì)于如今數(shù)據(jù)中心發(fā)展面臨的挑戰(zhàn),AIOps提供了如下關(guān)鍵優(yōu)勢(shì):
通過(guò)智能化的響應(yīng)流程,以及數(shù)據(jù)驅(qū)動(dòng)的決策支持,AIOps將極大將提升核心業(yè)務(wù)的穩(wěn)定性和可靠性,保證業(yè)務(wù)持續(xù)運(yùn)行,提升業(yè)務(wù)價(jià)值。同時(shí),運(yùn)維效率提升和成本降低將為企業(yè)釋放更多的資源,用于核心業(yè)務(wù)的創(chuàng)新和發(fā)展。
在基于故障、告警觸發(fā)的被動(dòng)響應(yīng)式運(yùn)維的基礎(chǔ)上,AIOps提供了主動(dòng)智能止損、主動(dòng)定位故障等能力,將引領(lǐng)數(shù)據(jù)中心運(yùn)維從被動(dòng)響應(yīng)向主動(dòng)預(yù)防、從主動(dòng)預(yù)防向智能化預(yù)防不斷演進(jìn)。
AIOps將不斷引入異常情況模擬等混沌工程能力,助力評(píng)估智能運(yùn)維系統(tǒng)在故障發(fā)生時(shí)的彈性和可恢復(fù)性,監(jiān)控系統(tǒng)在異常情況下的行為,有效識(shí)別和收集關(guān)鍵的運(yùn)維指標(biāo)和管理數(shù)據(jù),從而通過(guò)迭代和改進(jìn)來(lái)不斷提高系統(tǒng)的運(yùn)維能力和韌性。
隨著人工智能等技術(shù)的不斷發(fā)展,AIOps 還在不斷進(jìn)化之中,憑借著長(zhǎng)期運(yùn)維所積累的海量數(shù)據(jù),以及飛速發(fā)展的大模型等應(yīng)用,AIOps面臨著新一輪技術(shù)創(chuàng)新的契機(jī)。例如,大模型在云事件管理、根因定位具體場(chǎng)景中的應(yīng)用為AIOps開辟了新的領(lǐng)域,大模型的涌現(xiàn)能力,也在為AIOps技術(shù)的革新、提高AIOps運(yùn)維效率提供了有效的支撐。
浪潮信息InManage 打造數(shù)據(jù)中心智能管理行業(yè)標(biāo)桿
浪潮信息數(shù)據(jù)中心管理平臺(tái)InManage順應(yīng)AIOps發(fā)展趨勢(shì),依托自研的面向基礎(chǔ)設(shè)施的AIOps平臺(tái),有效解決局部硬件概率性故障下系統(tǒng)容錯(cuò)的問(wèn)題,智能故障診斷和故障根因定位故障診斷率達(dá)到95%以上,硬盤故障預(yù)測(cè)可提前15天感知風(fēng)險(xiǎn),內(nèi)存故障預(yù)測(cè)準(zhǔn)確率提高30%,此外,結(jié)合AI算法進(jìn)行性能和容量預(yù)測(cè),實(shí)現(xiàn)精準(zhǔn)算力調(diào)配,讓用戶數(shù)據(jù)中心更加高效、穩(wěn)定、可靠。
同時(shí),InManage還在資產(chǎn)管理、監(jiān)控管理、配置管理和能效管理方面提供一系列的智能化管理能力,幫助企業(yè)用戶統(tǒng)一運(yùn)維服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施,提升運(yùn)維效率和質(zhì)量、降低運(yùn)維成本:
智能資產(chǎn)管理:InManage結(jié)合智能網(wǎng)絡(luò)自動(dòng)發(fā)現(xiàn)技術(shù)和RFID射頻識(shí)別技術(shù),能夠精準(zhǔn)搜索和識(shí)別整機(jī)型和部件型資產(chǎn),可以納管400多種不同品牌不同類型的資產(chǎn)設(shè)備。借助自動(dòng)拓?fù)渑c3D建模技術(shù),InManage能夠幫助用戶構(gòu)建數(shù)字孿生式資產(chǎn)可視化,清晰展示資產(chǎn)的網(wǎng)絡(luò)架構(gòu)、空間位置和關(guān)聯(lián)關(guān)系,沉浸式了解資產(chǎn)狀況。同時(shí),InManage采用基于物聯(lián)網(wǎng)(IoT)的技術(shù)方案,實(shí)現(xiàn)自動(dòng)化的線上線下資產(chǎn)管理,支持自動(dòng)巡檢、資產(chǎn)報(bào)表、維保管理、出入庫(kù)管控等功能,打通采購(gòu)、使用、審計(jì)、財(cái)務(wù)壁壘,全面滿足企業(yè)管理需求,運(yùn)維工作量降低40%,資產(chǎn)管理效率提升90%。
智能監(jiān)控管理:InManage通過(guò)"一中心多網(wǎng)格"的分布式設(shè)計(jì),突破海量基礎(chǔ)設(shè)施數(shù)據(jù)收集和分析的性能瓶頸,支持10萬(wàn)級(jí)IT設(shè)備的統(tǒng)一納管。同時(shí)為保障數(shù)據(jù)中心穩(wěn)定運(yùn)行,InManage基于日志、指標(biāo)、關(guān)系鏈等高維數(shù)據(jù),能夠進(jìn)行特征構(gòu)建、算法優(yōu)化及模型訓(xùn)練、結(jié)合業(yè)界領(lǐng)先的運(yùn)維專家?guī)?,?shí)現(xiàn)對(duì)CPU、內(nèi)存、硬盤,PCIe等設(shè)備故障的精準(zhǔn)定位和故障預(yù)測(cè),故障診斷率達(dá)到95%以上,其中,硬盤故障預(yù)測(cè)可提前15天感知風(fēng)險(xiǎn),內(nèi)存故障預(yù)測(cè)準(zhǔn)確率提高30%。InManage基于自研的ETF無(wú)閾值告警算法,支持服務(wù)器集群性能和容量無(wú)閾值告警,告警準(zhǔn)確率高達(dá)95.26%,極大提升數(shù)據(jù)中心運(yùn)維效率。
智能配置管理:InManage 基于在線鏡像平臺(tái)實(shí)現(xiàn)服務(wù)器全量固件智能匹配和自動(dòng)推送,遵循業(yè)務(wù)策略智能升級(jí),實(shí)現(xiàn)零人工干預(yù),升級(jí)效率800%。依托多年服務(wù)器運(yùn)維經(jīng)驗(yàn)和多行業(yè)客戶需求,內(nèi)置數(shù)百種開箱即用模板,涵蓋全量固件升級(jí)、BIOS/BMC/RAID配置、電源策略、操作系統(tǒng)安裝、壓力測(cè)試、應(yīng)用部署等運(yùn)維場(chǎng)景,基于可視化編排,實(shí)現(xiàn)大規(guī)模服務(wù)器一站式智能上架和業(yè)務(wù)自動(dòng)上線交付,有效地保障數(shù)據(jù)中心快速投產(chǎn)、可靠運(yùn)行。
智能化能耗分析:InManage打通動(dòng)環(huán)和IT能耗數(shù)據(jù),通過(guò)多種智能化算法和模型,提供豐富的功耗策略,完成數(shù)據(jù)中心能耗優(yōu)化和碳排放管理,實(shí)現(xiàn)機(jī)架密度優(yōu)化,數(shù)據(jù)中心能耗調(diào)整可視化。同時(shí)InManage可分析用戶服務(wù)器功耗和溫度分布范圍提供制冷方案,優(yōu)化機(jī)房環(huán)境;分析數(shù)據(jù)中心空載服務(wù)器及服務(wù)器負(fù)載運(yùn)行時(shí)間分布,優(yōu)化業(yè)務(wù)系統(tǒng);優(yōu)化配置能源使用策略,管理服務(wù)器的功耗,能耗降低 15-20%。有效降低數(shù)據(jù)中心PUE,助力數(shù)據(jù)中心碳中和目標(biāo),推動(dòng)綠色數(shù)據(jù)中心建設(shè)。
目前,浪潮信息InManage在海內(nèi)外收獲了廣泛的客戶認(rèn)可,正在為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心提供全程無(wú)憂的運(yùn)維服務(wù)。在科研高校,借助InManage平臺(tái),助力高校數(shù)據(jù)中心實(shí)現(xiàn)了服務(wù)器的智能化、一體化管理,運(yùn)維成本降低50%,但整個(gè)數(shù)據(jù)中心的運(yùn)維效率提高了10倍以上。在某世界TOP級(jí)銀行巨頭的數(shù)據(jù)中心,浪潮信息以"主備HA模式"部署InManage平臺(tái),管理規(guī)模超過(guò)10萬(wàn)節(jié)點(diǎn),管理各項(xiàng)參數(shù)指標(biāo)超過(guò)300萬(wàn),覆蓋了數(shù)據(jù)中心設(shè)備的所有組件,幫助該行數(shù)據(jù)中心運(yùn)維效率實(shí)現(xiàn)3倍提升,保障業(yè)務(wù)穩(wěn)定可靠運(yùn)行。
在日新月異的數(shù)字化創(chuàng)新環(huán)境中,浪潮信息正在持續(xù)推進(jìn)InManage的技術(shù)創(chuàng)新與場(chǎng)景化落地,助力數(shù)據(jù)中心運(yùn)維效率、質(zhì)量的提升,為更多企業(yè)的數(shù)字化轉(zhuǎn)型賦能。