多活元數(shù)據(jù)技術(shù),浪潮定義存儲(chǔ)管理EB級(jí)數(shù)據(jù)

2018-03-02 13:11 來(lái)源:美通社 作者:Janet

移動(dòng)互聯(lián)網(wǎng)與人工智能時(shí)代,非結(jié)構(gòu)化數(shù)據(jù)呈海量增長(zhǎng)態(tài)勢(shì),數(shù)據(jù)存儲(chǔ)平臺(tái)在彈性與性能上面臨巨大挑戰(zhàn)。浪潮軟件定義存儲(chǔ)通過(guò)提供元數(shù)據(jù)存儲(chǔ)與管理方案,給海量數(shù)據(jù)提供彈性空間,讓用戶自由馳騁于數(shù)據(jù)智能世界。

智能時(shí)代產(chǎn)生海量非結(jié)構(gòu)化數(shù)據(jù)

信息技術(shù)的飛速發(fā)展,特別是移動(dòng)互聯(lián)網(wǎng)應(yīng)用、數(shù)據(jù)智能挖掘技術(shù)的快速發(fā)展,使眾多相關(guān)行業(yè)面臨業(yè)務(wù)數(shù)據(jù)量指數(shù)級(jí)增長(zhǎng)的趨勢(shì)。例如:智能手機(jī)的普及,使移動(dòng)手機(jī)用戶可以隨心所欲拍攝高清照片、視頻以記錄自己生活的點(diǎn)滴,并可以方便地把影音資料存儲(chǔ)在云端,這類新的生活習(xí)慣必然產(chǎn)生大量數(shù)據(jù)。再如,中國(guó)公共安全領(lǐng)域的“雪亮工程”等關(guān)系國(guó)計(jì)民生視頻監(jiān)控項(xiàng)目的開展,使得公共安全視頻監(jiān)控覆蓋范圍從原來(lái)的城市中心地帶擴(kuò)展到了鄉(xiāng)村,這也將產(chǎn)生大量的數(shù)據(jù)。而在互聯(lián)網(wǎng)+商業(yè)領(lǐng)域,對(duì)用戶信息的掌握,更成為互聯(lián)網(wǎng)企業(yè)生存的根本,之前大量不需要存儲(chǔ)的用戶網(wǎng)絡(luò)瀏覽軌跡等中間信息,如今由于成為大數(shù)據(jù)分析的數(shù)據(jù)來(lái)源,也需要進(jìn)行數(shù)據(jù)存儲(chǔ)。

面對(duì)各種海量數(shù)據(jù)、尤其是海量非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)需求,傳統(tǒng)數(shù)據(jù)存儲(chǔ)方式在成本和性能兩個(gè)維度均已無(wú)法滿足。

傳統(tǒng)存儲(chǔ)方式之一是使用本地文件系統(tǒng)存儲(chǔ)數(shù)據(jù),而由于其架構(gòu)所限制,控制器一般為一臺(tái),即本地操作系統(tǒng)主機(jī)和生產(chǎn)業(yè)務(wù)共用CPU及內(nèi)存等系統(tǒng)資源,所以在實(shí)際操作中大多僅僅能擴(kuò)展至幾個(gè)TB的可用容量,這和“海量”存儲(chǔ)的需求相差甚遠(yuǎn)。

另外一種把計(jì)算和存儲(chǔ)分離的集中式存儲(chǔ)方案 -- NAS方案亦差強(qiáng)人意。NAS屬于外部集中式存儲(chǔ)方案,架構(gòu)擴(kuò)展性相比本地文件系統(tǒng)有較明顯優(yōu)勢(shì)。其控制器一般為兩臺(tái)至多臺(tái),在數(shù)據(jù)規(guī)模稍微“大”一點(diǎn)的業(yè)務(wù)場(chǎng)景,用戶往往使用NAS存儲(chǔ)方案。但NAS在海量數(shù)據(jù)時(shí)代到來(lái)之前已經(jīng)存在,當(dāng)初設(shè)計(jì)時(shí)重點(diǎn)考慮的并非是“海量”非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ),所以在大多數(shù)生產(chǎn)環(huán)境中都是采用雙控設(shè)備,如果數(shù)據(jù)量增大,一般做法是再配置一套而已。這樣的處理方式使得用戶的生產(chǎn)環(huán)境形成大量數(shù)據(jù)孤島,且單套NAS由于其軟硬件設(shè)計(jì)架構(gòu)的局限性,在實(shí)際項(xiàng)目中的容量擴(kuò)展往往不超過(guò)100~200TB,即使雙控系統(tǒng),一般對(duì)外最多也只能提供4GB/s帶寬,因此其容量與性能均無(wú)法匹配海量數(shù)據(jù)時(shí)代的存儲(chǔ)要求。

浪潮軟件定義存儲(chǔ):EB級(jí)彈性空間

于是,在滿足互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)應(yīng)用的需求下,浪潮軟件定義存儲(chǔ)系統(tǒng)隨之產(chǎn)生,以滿足海量數(shù)據(jù)時(shí)代的存儲(chǔ)需求。

根據(jù)其基本軟硬件設(shè)計(jì)思想,浪潮軟件定義存儲(chǔ)系統(tǒng)基于通用x86平臺(tái)開發(fā)“控制+存儲(chǔ)”節(jié)點(diǎn),采用以太網(wǎng)絡(luò)交換技術(shù)把整套系統(tǒng)硬件互聯(lián)起來(lái),然后在其上部署浪潮軟件定義存儲(chǔ)軟件,形成對(duì)外提供統(tǒng)一服務(wù)接口,對(duì)內(nèi)協(xié)調(diào)數(shù)據(jù)交換的存儲(chǔ)系統(tǒng)。在組網(wǎng)層面,以太網(wǎng)絡(luò)并不是其唯一的選擇,目前業(yè)界還有InfiniBand等其他組網(wǎng)方式;在服務(wù)層面,浪潮軟件定義存儲(chǔ)系統(tǒng)的對(duì)外服務(wù)類型包括NAS文件存儲(chǔ)、對(duì)象存儲(chǔ)、塊存儲(chǔ),并支持RESTful接口,可以靈活滿足用戶定制化的服務(wù)需求。與此同時(shí),浪潮軟件定義存儲(chǔ)節(jié)點(diǎn)的選擇更加靈活,可以使用利舊的x86服務(wù)器,也可以選擇專業(yè)廠商專為浪潮軟件定義存儲(chǔ)設(shè)計(jì)的高密度設(shè)備。

在技術(shù)實(shí)現(xiàn)上,目前浪潮軟件定義存儲(chǔ)系統(tǒng)Scale-out(橫向擴(kuò)展)方式的存儲(chǔ)節(jié)點(diǎn)擴(kuò)展能力非常強(qiáng)大,單系統(tǒng)存儲(chǔ)節(jié)點(diǎn)可擴(kuò)展至數(shù)千個(gè),可以形成EB級(jí)海量存儲(chǔ)空間、百億數(shù)據(jù)文件管理、千萬(wàn)級(jí)IOPS和百GB帶寬,加上不斷進(jìn)步的數(shù)據(jù)自動(dòng)修復(fù)和自動(dòng)運(yùn)維機(jī)制,使之廣泛適用于海量數(shù)據(jù)存儲(chǔ)場(chǎng)景。

浪潮軟件定義存儲(chǔ)系統(tǒng)的容量、性能可以隨著存儲(chǔ)系統(tǒng)節(jié)點(diǎn)的橫向擴(kuò)展呈線性增長(zhǎng),這一特性從根本上解決了本地文件系統(tǒng)和集中式外部存儲(chǔ)的在擴(kuò)展性方面的劣勢(shì),大大提高了IT投入的回報(bào)率,這就是浪潮軟件定義存儲(chǔ)今天備受青睞的原因。

優(yōu)化的元數(shù)據(jù)索引服務(wù)

那么,為什么浪潮軟件定義存儲(chǔ)能很好地管理海量數(shù)據(jù)呢?下面以文件服務(wù)類型為例來(lái)進(jìn)行闡述說(shuō)明。

對(duì)于傳統(tǒng)的本地文件系統(tǒng),當(dāng)查找一個(gè)文件時(shí),先由元數(shù)據(jù)區(qū)找到索引,再定位到數(shù)據(jù)區(qū),存在深度目錄的時(shí)候,可能需要在兩種區(qū)域做多次查詢和數(shù)據(jù)定向,最后才能定位到所需要的文件。對(duì)于這種低效率的模式,很多成熟的文件系統(tǒng)大多使用類B樹的方式來(lái)組織目錄,以避免線性方式查找目錄項(xiàng)來(lái)降低文件索引冗余度;此外還有多種技術(shù)(如HASH,元數(shù)據(jù)緩存,C-FFS等)在傳統(tǒng)架構(gòu)上都可以不同程度地給文件索引性能加速,但是在海量數(shù)據(jù)存儲(chǔ)場(chǎng)景下,以上所有努力都會(huì)失靈。

究其原因其實(shí)也很明確:存儲(chǔ)海量數(shù)據(jù)的時(shí)候,一定會(huì)有大量的元數(shù)據(jù)需要存儲(chǔ)。在傳統(tǒng)文件系統(tǒng)的軟件架構(gòu)(包括集中式NAS存儲(chǔ))中,元數(shù)據(jù)為集中式存儲(chǔ)方式,處理元數(shù)據(jù)的服務(wù)(控制器)也為集中式。由于元數(shù)據(jù)被存儲(chǔ)在了少量固定的磁盤上面,不能隨整體容量的增加而任意擴(kuò)展,使得這塊區(qū)域?qū)ν馓峁┑淖x寫性能因被固化而變得十分有限。與此同時(shí),數(shù)據(jù)文件在訪問(wèn)IO頻繁的時(shí)候,元數(shù)據(jù)索引服務(wù)需要消耗大量CPU和內(nèi)存的資源,而本地文件系統(tǒng)所能依靠的只是本地操作系統(tǒng)上的資源,即使是NAS存儲(chǔ)一般也僅僅可以使用兩個(gè)控制器上的資源。當(dāng)數(shù)據(jù)量達(dá)到數(shù)PB級(jí)時(shí)對(duì)于IO性能的需求會(huì)高出很多,讀寫帶寬基本上需要在幾十GB以上。因此,傳統(tǒng)的集中式元數(shù)據(jù)部署架構(gòu)不管在軟件算法上如何優(yōu)化,面對(duì)海量數(shù)據(jù)也于事無(wú)補(bǔ)。

此時(shí),再來(lái)看看浪潮軟件定義存儲(chǔ)是如何應(yīng)對(duì)這一難題的:首先,浪潮軟件定義存儲(chǔ)系統(tǒng)具有良好的Scale-out擴(kuò)展性能:隨著物理節(jié)點(diǎn)的擴(kuò)展,性能、容量也隨之呈線性擴(kuò)展;其次,全局融合的分布式結(jié)構(gòu)設(shè)計(jì)使得擴(kuò)展過(guò)程中突破了傳統(tǒng)NAS元數(shù)據(jù)瓶頸制約。

浪潮軟件定義存儲(chǔ)之所以能做到這一點(diǎn),在于打破了傳統(tǒng)文件系統(tǒng)(也包括集中式NAS存儲(chǔ))的元數(shù)據(jù)集中式存儲(chǔ)和管理這一限制,對(duì)浪潮軟件定義存儲(chǔ)集群系統(tǒng)的目錄實(shí)行分而治之,讓集群中所有服務(wù)器來(lái)一起存儲(chǔ)和管理元數(shù)據(jù)及數(shù)據(jù),從而實(shí)現(xiàn)負(fù)荷分擔(dān)、負(fù)載均衡。目前其實(shí)現(xiàn)方式主要有三種,各類浪潮軟件定義存儲(chǔ)會(huì)根據(jù)自身交付的場(chǎng)景不同,選擇不同的方式:

第一種,靜態(tài)子樹分區(qū)。以目錄為單位,把各個(gè)目錄或子目錄手工分配給不同節(jié)點(diǎn)去存儲(chǔ),并指定不同的元數(shù)據(jù)服務(wù)節(jié)點(diǎn)/程序去管理。當(dāng)某個(gè)目錄出現(xiàn)訪問(wèn)過(guò)熱的情況下,再由管理員手工進(jìn)行遷移。這種處理方式邏輯最為簡(jiǎn)單,也容易實(shí)現(xiàn),但如果數(shù)據(jù)目錄需要頻繁擴(kuò)容,就需要管理員人為頻繁干預(yù)。老一點(diǎn)的網(wǎng)絡(luò)共享文件系統(tǒng)一般采用的是這種方式。

第二種,HASH分區(qū)。通過(guò)計(jì)算來(lái)分配數(shù)據(jù)、元數(shù)據(jù)存儲(chǔ)的位置。這種方式可以把數(shù)據(jù)和元數(shù)據(jù)自動(dòng)均勻地分布在各個(gè)節(jié)點(diǎn)上,但是突發(fā)性熱點(diǎn)區(qū)域的數(shù)據(jù)訪問(wèn)可能造成整個(gè)系統(tǒng)內(nèi)部某些元數(shù)據(jù)服務(wù)節(jié)點(diǎn)資源吃緊,從而成為整個(gè)系統(tǒng)的性能瓶頸。這種方式在一些分布式文件系統(tǒng)里得到了應(yīng)用,并在IO均勻分布的業(yè)務(wù)環(huán)境中很適用,如Lustre分布式文件系統(tǒng)。

第三種,動(dòng)態(tài)子樹分區(qū)。大體結(jié)構(gòu)類似上面兩種方式,但它可以通過(guò)實(shí)時(shí)監(jiān)控和分析,把熱度數(shù)據(jù)單位動(dòng)態(tài)地調(diào)整到不同的元數(shù)據(jù)服務(wù)節(jié)點(diǎn),從而實(shí)現(xiàn)數(shù)據(jù)索引的動(dòng)態(tài)負(fù)載均衡。

一招制敵:破解元數(shù)據(jù)存儲(chǔ)與管理難題

當(dāng)理解了以上幾種模式,就可以明白浪潮軟件定義存儲(chǔ)是如何來(lái)管理數(shù)據(jù)與元數(shù)據(jù)的了。簡(jiǎn)單來(lái)說(shuō),元數(shù)據(jù)的處理性能是決定整個(gè)存儲(chǔ)系統(tǒng)文件服務(wù)能力(容量規(guī)模,文件數(shù)目)的重要因素。如果元數(shù)據(jù)索引效率低下,即使強(qiáng)制擴(kuò)充存儲(chǔ)容量,也會(huì)造成數(shù)據(jù)訪問(wèn)過(guò)慢甚至不可用的情況頻頻發(fā)生。浪潮軟件定義存儲(chǔ)系統(tǒng)架構(gòu)則通過(guò)把元數(shù)據(jù)均勻分布在集群內(nèi)各個(gè)節(jié)點(diǎn)的磁盤之上解決了這一難題,其元數(shù)據(jù)服務(wù)引擎(控制器)的數(shù)目更是突破了傳統(tǒng)文件系統(tǒng)(1個(gè))和NAS存儲(chǔ)(2~16個(gè))的限制。由于浪潮軟件定義存儲(chǔ)擁有更為強(qiáng)大的計(jì)算資源和存儲(chǔ)資源來(lái)快速索引文件,所以其容量規(guī)模、管理文件數(shù)目的能力要遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)架構(gòu)存儲(chǔ)。

此外,多活元數(shù)據(jù)服務(wù)集群技術(shù)更是讓浪潮軟件定義存儲(chǔ)如虎添翼。在上文的動(dòng)態(tài)子樹圖劃分圖中可以看出,一個(gè)浪潮軟件定義存儲(chǔ)集群中存在不止一個(gè)元數(shù)據(jù)服務(wù),這也是浪潮軟件定義存儲(chǔ)的顯著優(yōu)勢(shì):多個(gè)元數(shù)據(jù)服務(wù)形成集群,共同對(duì)外提供文件索引服務(wù),并且通過(guò)元數(shù)據(jù)副本、緩存加速、熱點(diǎn)目錄分片、動(dòng)態(tài)子樹分區(qū)等技術(shù),來(lái)實(shí)現(xiàn)負(fù)載均衡及元數(shù)據(jù)服務(wù)故障高可用等一系列功能。

從根本上破解元數(shù)據(jù)存儲(chǔ)與管理難題,是浪潮軟件定義存儲(chǔ)馳騁海量數(shù)據(jù)時(shí)代的關(guān)鍵。

元數(shù)據(jù) 浪潮 存儲(chǔ)管理

相關(guān)閱讀

暫無(wú)數(shù)據(jù)

一周熱門