背景 以虛擬化、超融合、云平臺(tái)等為形態(tài)的云化數(shù)據(jù)中心已經(jīng)成為越來(lái)越多的企業(yè)機(jī)構(gòu)數(shù)據(jù)中心升級(jí)方案。據(jù)權(quán)威媒體統(tǒng)計(jì),云每年以25%的速度增加,其中虛擬化滲透率大于80%。云在按需交付、資源池化等方面有先天的優(yōu)勢(shì),但隨之也帶來(lái)更多的數(shù)據(jù)和業(yè)務(wù)安全風(fēng)險(xiǎn)。無(wú)論是自建的云還是公有云,每年都頻繁發(fā)生大量的數(shù)據(jù)安全和業(yè)務(wù)中斷事故。 在備份容災(zāi)管理領(lǐng)域,一方面IT基礎(chǔ)架構(gòu)的云化變化速度已經(jīng)大大超出了現(xiàn)有的數(shù)據(jù)保護(hù)技術(shù)的變化速度,而另一方面不少?gòu)S商又都聲稱自家的產(chǎn)品可以備份云。 那么到底該如何選擇真正適合云化數(shù)據(jù)中心的備份容災(zāi)系統(tǒng),本文重點(diǎn)從以下幾個(gè)方面展開(kāi)討論。 一、什么是云化數(shù)據(jù)中心 簡(jiǎn)單講,就是當(dāng)業(yè)務(wù)需要,數(shù)據(jù)中心可以在數(shù)分鐘內(nèi)增加或減少業(yè)務(wù)所需要的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源。再簡(jiǎn)單講,就是隨時(shí)增加或減少可以安裝部署業(yè)務(wù)應(yīng)用軟件的服務(wù)器。 自建云化數(shù)據(jù)中心的方案有多種思路,如下: 1、虛擬化為中心的經(jīng)典架構(gòu) 這種方案是目前最主流的云化數(shù)據(jù)中心方案,主要采用的方案就是虛擬化操作系統(tǒng)、服務(wù)器與企業(yè)級(jí)集中式存儲(chǔ),該方案成熟度最高。這種方案,隨著虛擬機(jī)規(guī)模增加,底層的集中存儲(chǔ)會(huì)越來(lái)越感覺(jué)到不夠用。這時(shí)候需要增加新的存儲(chǔ)或服務(wù)器部署,重新遷移或分布虛擬機(jī)系統(tǒng)。 2、以O(shè)penStack為代表的開(kāi)源大集成架構(gòu) 這套體系接近公有云平臺(tái)的體系,主要的3個(gè)核心服務(wù)都采用高度彈性的方案來(lái)構(gòu)成。隨著引入的服務(wù)越多,運(yùn)維管理復(fù)雜度也大幅度提升。目前開(kāi)源體系最大的問(wèn)題在于企業(yè)級(jí)運(yùn)維管理的能力較弱,可靠性不能很好保障,可管理性差,易用性方面門(mén)檻很高,需要高度依賴商業(yè)發(fā)行版企業(yè)來(lái)保障持續(xù)的運(yùn)行。 這類平臺(tái)通常是從幾千到上萬(wàn)個(gè)虛擬機(jī)規(guī)模,是一些大型企業(yè)在重點(diǎn)升級(jí)的云架構(gòu)方案。 3、各類公有云的企業(yè)部署版本 國(guó)內(nèi)的云計(jì)算公司,都相應(yīng)推出了企業(yè)內(nèi)部部署的版本,與OpenStack的架構(gòu)類似,核心也包含3大核心服務(wù),以及各類上層應(yīng)用服務(wù)。 第2、第3這類通常是一些大型企業(yè),或者技術(shù)運(yùn)維能力很強(qiáng)的機(jī)構(gòu)才會(huì)采用。通常需要企業(yè)自己配置開(kāi)發(fā)運(yùn)維團(tuán)隊(duì)。 4、采用商業(yè)超融合的架構(gòu) 第2、3涉及到的硬件投入、軟件投入以及人力投入都很大,一般的中小企業(yè)都難以部署和運(yùn)維。超融合把云計(jì)算里最核心的能力:虛擬化計(jì)算、軟件定義網(wǎng)絡(luò)與分布式存儲(chǔ)三大核心服務(wù)融合在一起,形成3-4個(gè)服務(wù)器節(jié)點(diǎn)一組的模塊化方案。 通過(guò)分布式文件系統(tǒng)融合服務(wù)器集群管理技術(shù),把服務(wù)器的存儲(chǔ)能力連接起來(lái),形成可以被服務(wù)器共享的存儲(chǔ)池,服務(wù)器內(nèi)置的虛擬化操作系統(tǒng)。通過(guò)Web管理控制臺(tái),可以為企業(yè)打造按需交付的云平臺(tái)。該方案無(wú)需外置其他存儲(chǔ)設(shè)備,更容易交付和運(yùn)維,企業(yè)自建私有云變得簡(jiǎn)單很多。 通常超融合方案按照3個(gè)服務(wù)器節(jié)點(diǎn)起進(jìn)行部署,如果需要擴(kuò)容,再按3-4個(gè)節(jié)點(diǎn)一組進(jìn)行擴(kuò)容。 二、云化數(shù)據(jù)中心與傳統(tǒng)的數(shù)據(jù)中心有何不同 1、傳統(tǒng)數(shù)據(jù)中心的典型結(jié)構(gòu) 下面我們來(lái)看一看傳統(tǒng)數(shù)據(jù)中心的架構(gòu)示意圖: 一般每臺(tái)服務(wù)器上跑1-3個(gè)業(yè)務(wù)不等,各業(yè)務(wù)通過(guò)不同的安裝目錄和不同網(wǎng)絡(luò)端口來(lái)隔離。所有服務(wù)器數(shù)據(jù)都存入NAS/SAN等集中式存儲(chǔ)。 2、成本與運(yùn)維效率對(duì)比 兩種數(shù)據(jù)中心,由于底層架構(gòu)不一樣,無(wú)論在成本、效率、以及運(yùn)維管理方法等方面區(qū)別很大。 這也是為什么越來(lái)越多的企業(yè)機(jī)構(gòu)加速數(shù)據(jù)中心云化,只有這樣才能更敏捷支持業(yè)務(wù)發(fā)展需求,提高資源利用率。 3、數(shù)據(jù)備份和業(yè)務(wù)連續(xù)運(yùn)行保護(hù)模型對(duì)比 傳統(tǒng)數(shù)據(jù)中心和云化數(shù)據(jù)中心在保護(hù)模型上,區(qū)別非常大。了解這些區(qū)別后,才有利于我們選擇合適的保護(hù)方案。 三、當(dāng)前的云化數(shù)據(jù)中心數(shù)據(jù)備份容災(zāi)現(xiàn)狀 1、用物理機(jī)時(shí)代設(shè)計(jì)的保護(hù)模型保護(hù)云 國(guó)內(nèi)外一些廠家產(chǎn)品都源于物理機(jī)保護(hù)的模型,延展到虛擬化領(lǐng)域。其基本的架構(gòu)設(shè)計(jì)模型如下: 基本上就是一個(gè)簡(jiǎn)單的集成架構(gòu),把備份軟件部署到服務(wù)器上,然后交付到客戶。增加了虛擬機(jī)備份支持,本質(zhì)上,在保護(hù)架構(gòu)設(shè)計(jì)上沒(méi)有特別變化。 2、保護(hù)容量固定 通常這類架構(gòu)在底層選用的備份存儲(chǔ)容量上,很固定。廠家在做方案時(shí)候,通常會(huì)考慮預(yù)留較大的空間用于備份數(shù)據(jù)增長(zhǎng)的需求。 這會(huì)帶來(lái)兩個(gè)問(wèn)題,一是初次投入較高,二是無(wú)法適應(yīng)云數(shù)據(jù)規(guī)模增長(zhǎng)的需求。最終空間會(huì)用滿,這時(shí)候,必須增加新的設(shè)備。 增加新的設(shè)備,由于設(shè)備之間相互獨(dú)立。勢(shì)必會(huì)帶來(lái)維護(hù)、遷移和更多的數(shù)據(jù)存儲(chǔ)開(kāi)銷。 3、備份策略模型笨重 傳統(tǒng)備份方案有全量、增量、差異備份方式。由于一直以來(lái),考慮到底層存儲(chǔ)和各種情況導(dǎo)致的數(shù)據(jù)錯(cuò)誤,廠商通常采用幾種方式結(jié)合的方案來(lái)保護(hù)物理機(jī)模型的備份數(shù)據(jù)。其中全量模型,會(huì)大幅度增加系統(tǒng)的存儲(chǔ)開(kāi)銷,在云場(chǎng)景由于數(shù)據(jù)量大數(shù)十倍,顯然是不合適的。 4、恢復(fù)速度慢 物理機(jī)時(shí)代設(shè)計(jì)的數(shù)據(jù)恢復(fù)方案,通??紤]的是數(shù)據(jù)回寫(xiě)恢復(fù)的方式。這種方式在數(shù)據(jù)規(guī)模不大的情況下,可以工作得很好。一旦數(shù)據(jù)規(guī)模很大的時(shí)候,這種方式恢復(fù)效率非常低。 5、容災(zāi)粒度粗 在傳統(tǒng)物理機(jī)數(shù)據(jù)中心時(shí)代,關(guān)鍵業(yè)務(wù)要做容災(zāi)保護(hù),通常采用的是存儲(chǔ)級(jí)復(fù)制方案。這種方案,在物理機(jī)時(shí)代工作得很好。通常一些重要業(yè)務(wù)如數(shù)據(jù)庫(kù)等是獨(dú)享存儲(chǔ)資源的。 在云化時(shí)代,所有的業(yè)務(wù)都共享存儲(chǔ),采用這種復(fù)制方案,顯然是缺少優(yōu)先級(jí)、重要性區(qū)分。在異地容災(zāi)效率方面,不能很好地解決業(yè)務(wù)重要性和業(yè)務(wù)帶寬資源分配的關(guān)聯(lián)關(guān)系。 四、具備云化數(shù)據(jù)中心級(jí)保護(hù)能力的備份系統(tǒng)的八個(gè)特征 特征一、支持虛擬化在線全增量即時(shí)合成模式的備份 通過(guò)云平臺(tái)輸出的API來(lái)備份數(shù)據(jù),而不是安裝客戶端去備份Guest虛擬機(jī)內(nèi)部數(shù)據(jù)。通過(guò)云平臺(tái)輸出的API來(lái)備份數(shù)據(jù)的兼容性好,數(shù)據(jù)一致性更能得到保障。 在備份模型選擇上,選用全增量模型備份是非常有必要。第一次采用全量備份,第2次以后采用增量備份方式,可以最有效的降低數(shù)據(jù)讀取量,減少網(wǎng)絡(luò)傳輸,最大程度提高備份系統(tǒng)的效率。同時(shí)系統(tǒng)可以根據(jù)增量數(shù)據(jù)即時(shí)合成為全量版本,用于快速恢復(fù)。 特征二、支持Scale Out模型的擴(kuò)展方案 雖然可以采用插滿硬盤(pán)槽位(ScaleUp)或多臺(tái)組合的方案,來(lái)備份整個(gè)云數(shù)據(jù)中心。但這不是最佳實(shí)踐。這種方式會(huì)大幅度提高運(yùn)維管理難度。人為的分割和遷移數(shù)據(jù)、任務(wù)。規(guī)模越大,這種方案越難用。到了上千節(jié)點(diǎn)的規(guī)模,涉及數(shù)百TB到PB級(jí)數(shù)據(jù),一般的方案需要多臺(tái)設(shè)備(10臺(tái)到20臺(tái)不等)組合到一起,這種方案幾乎難以實(shí)際運(yùn)用。 應(yīng)云而生的是Scale Out的橫向擴(kuò)展模型。簡(jiǎn)單來(lái)說(shuō),就是一組一組地?cái)U(kuò)展,而組與組之間可以無(wú)縫融合成一個(gè)大組。所有組內(nèi)的服務(wù)器節(jié)點(diǎn)數(shù)據(jù)都是共享的。另外,系統(tǒng)也能自動(dòng)平衡內(nèi)部的數(shù)據(jù)和任務(wù)分布。數(shù)據(jù)存儲(chǔ)和任務(wù)處理性能,同步提升。 Scale Out模型理論上能達(dá)到無(wú)上限的數(shù)據(jù)存儲(chǔ)能力和保護(hù)能力。 特征三、集群范圍的全局?jǐn)?shù)據(jù)處理消重壓縮能力 不少的備份廠家產(chǎn)品是支持?jǐn)?shù)據(jù)消重技術(shù),但由于架構(gòu)設(shè)計(jì)的原因,也僅僅是在單套系統(tǒng)內(nèi)部。單套系統(tǒng)保護(hù)的云主機(jī)規(guī)模有限,重刪效果也大大降低。 對(duì)于高度重復(fù)的云化數(shù)據(jù)中心來(lái)說(shuō),備份系統(tǒng)具備集群范圍的消重壓縮能力,是一個(gè)關(guān)鍵指標(biāo),一些情況甚至高達(dá)90%的重復(fù)比例。如果用傳統(tǒng)的方案,會(huì)投入數(shù)倍的成本來(lái)存儲(chǔ)重復(fù)的數(shù)據(jù)。對(duì)于一些數(shù)千個(gè)云節(jié)點(diǎn)的大規(guī)模云平臺(tái),這將是巨大的投入。 特征四、批量并發(fā)即時(shí)恢復(fù)能力 如果還是按照現(xiàn)有的傳統(tǒng)數(shù)據(jù)恢復(fù)方案,對(duì)于高度敏捷的云平臺(tái),慢如蝸牛的恢復(fù)速度,顯然是不能容忍的。即時(shí)恢復(fù),就是采用先在數(shù)分鐘內(nèi)(最短時(shí)間)應(yīng)急恢復(fù)業(yè)務(wù),然后再在線遷移。 批量即時(shí)恢復(fù)能力要求備份系統(tǒng)能夠識(shí)別和支持并發(fā)的隨機(jī)IO流,并能很好的支持并發(fā)頻繁的隨機(jī)IO讀寫(xiě)需求。 特征五、多節(jié)點(diǎn)對(duì)等任務(wù)并行執(zhí)行能力 云平臺(tái)天生就是節(jié)點(diǎn)數(shù)量多,數(shù)據(jù)量大。 對(duì)于備份系統(tǒng),是否能并行處理任務(wù)顯得非常重要。否則是無(wú)法有效、即時(shí)保護(hù)好整個(gè)云平臺(tái)。現(xiàn)有的方案還未準(zhǔn)備好去支持?jǐn)?shù)以百計(jì)的并行備份任務(wù)。 云平臺(tái)的備份系統(tǒng),不僅要求能夠保護(hù)更多的任務(wù),同時(shí)應(yīng)該能夠具備在集群備份系統(tǒng)內(nèi)部,任務(wù)可以在失敗后,跨節(jié)點(diǎn)執(zhí)行,以滿足更高的可靠性要求。 特征六、無(wú)限制版本管理能力 內(nèi)置無(wú)限制的版本管理能力,可以有效提高云平臺(tái)數(shù)據(jù)應(yīng)用能力。無(wú)論1個(gè)月前、2個(gè)月前、3個(gè)月前的數(shù)據(jù),都可以得到有效的恢復(fù)、復(fù)制、克隆等。 區(qū)別與云自己的快照,該能力可以基于任何歷史點(diǎn)執(zhí)行任意多次的恢復(fù)、克隆、讀寫(xiě)等 特征七、細(xì)粒度恢復(fù)和數(shù)據(jù)復(fù)制能力 備份系統(tǒng)既能夠備份整體云主機(jī)(虛擬機(jī))數(shù)據(jù),也需要能夠執(zhí)行文件級(jí)的數(shù)據(jù)恢復(fù)能力,根據(jù)業(yè)務(wù)情況組合使用。 對(duì)于執(zhí)行異地容災(zāi)的場(chǎng)景,任務(wù)級(jí)粒度復(fù)制數(shù)據(jù),可以有效降低帶寬的使用,優(yōu)先保護(hù)好重要業(yè)務(wù)。 特征八、備份系統(tǒng)能夠輸出管理API 備份系統(tǒng)能夠輸出管理API ,可以更加容易管理生產(chǎn)系統(tǒng)和備份系統(tǒng)。輕松集成在云管理平臺(tái),或企業(yè)IT集中管理平臺(tái)。使得整個(gè)備份流程更加容易根據(jù)企業(yè)需求自動(dòng)化統(tǒng)一管理。 五、關(guān)于云化數(shù)據(jù)中心備份容災(zāi)選擇常見(jiàn)的幾個(gè)誤區(qū) 1、支持了虛擬機(jī)備份就是云架構(gòu)的備份系統(tǒng) 支持虛擬機(jī)備份是基本條件,而通過(guò)云平臺(tái)輸出的備份API 來(lái)備份虛擬機(jī)系統(tǒng)是云架構(gòu)的備份系統(tǒng)的必要條件。
云架構(gòu)備份系統(tǒng)工作是否良好,除了能支持基本的備份外,備份速度是否高,備份效率是否高,是否能快速恢復(fù)業(yè)務(wù)、是否能支持API對(duì)接等,都是需要考慮的。 2、過(guò)度依賴品牌,品牌越知名越放心 在傳統(tǒng)以物理機(jī)為基礎(chǔ)構(gòu)建的數(shù)據(jù)中心,以品牌來(lái)選擇是合情合理。很多廠家的方案都是超過(guò)十年以上的研發(fā),積累了大量的數(shù)據(jù)備份容災(zāi)實(shí)踐。 尤其是一些一線大品牌,甚至超過(guò)20年的歷史,對(duì)數(shù)據(jù)庫(kù)、操作系統(tǒng)、小型機(jī)以及各種變形的高可用架構(gòu)的保護(hù),都非常擅長(zhǎng)。 但在云化數(shù)據(jù)中心時(shí)代,由于IT架構(gòu)的變化很大,大品牌擅長(zhǎng)的兼容性、可靠性、性能、備份模型全都優(yōu)勢(shì)不再,一切從零開(kāi)始。大公司、創(chuàng)新品牌都是從同一起點(diǎn)出發(fā)。誰(shuí)起步早?誰(shuí)更專注?誰(shuí)就越有優(yōu)勢(shì),誰(shuí)就能最早適應(yīng)客戶的云場(chǎng)景。 3、備份軟件安裝在客戶機(jī)系統(tǒng)里(Guest OS) 在客戶機(jī)操作系統(tǒng)里面安裝客戶端的方案,這是保護(hù)物理機(jī)的方案。如果一臺(tái)宿主機(jī)通過(guò)云化系統(tǒng)虛擬出10個(gè)客戶機(jī)系統(tǒng),就需要安裝10個(gè)客戶端。這種方式,運(yùn)維管理復(fù)雜,也額外會(huì)占用更多的系統(tǒng)資源。 這種方案,對(duì)客戶端的設(shè)計(jì)會(huì)提出更高的要求。直接拿備份物理機(jī)的軟件過(guò)來(lái)在客戶機(jī)內(nèi)部部署,這是最差的方案。 4、備份系統(tǒng)的容量按照物理機(jī)應(yīng)用數(shù)據(jù)模型估算 根據(jù)應(yīng)用數(shù)據(jù)的規(guī)模和增長(zhǎng),來(lái)確定保護(hù)容量是傳統(tǒng)數(shù)據(jù)中心保護(hù)方案常用的方案。云化時(shí)代,需要重新根據(jù)系統(tǒng)和應(yīng)用數(shù)據(jù)兩個(gè)維度來(lái)估算備份系統(tǒng)的容量,才能達(dá)到最好的保護(hù)和應(yīng)用效果。 5、不考慮平滑的擴(kuò)容方案 在傳統(tǒng)數(shù)據(jù)中心,備份系統(tǒng)配置的容量一般能很好支持3年以上的運(yùn)行,所以擴(kuò)容不是最需要考慮的要素。在方案的選擇上,擴(kuò)容不是最迫切的需求點(diǎn)。 而在云化時(shí)代,數(shù)據(jù)增長(zhǎng)與變化的速度會(huì)很快。半年到一年的擴(kuò)容周期是非常正常。因此拿已有的經(jīng)驗(yàn)去確定方案,后期的成本更高,系統(tǒng)升級(jí)、擴(kuò)容、遷移等管理就很復(fù)雜。 后記 在云時(shí)代,數(shù)據(jù)保護(hù)和管理的應(yīng)用場(chǎng)景已經(jīng)在發(fā)生革命性的變化,但很多用戶和行業(yè)從業(yè)者還停留在傳統(tǒng)架構(gòu)中來(lái)思考和選擇解決方案,這勢(shì)必將更多的云環(huán)境下的數(shù)據(jù)置于無(wú)有效保護(hù)的險(xiǎn)境之中。 本文從技術(shù)層面剖析,拋磚引玉,歡迎大家交流。 陳元強(qiáng),深圳市木浪云數(shù)據(jù)有限公司聯(lián)合創(chuàng)始人 & CEO,木浪云云數(shù)據(jù)管理創(chuàng)建人 ,多備份在線備份云服務(wù)創(chuàng)始人。超過(guò)18年網(wǎng)絡(luò)與數(shù)據(jù)安全、分布式系統(tǒng)與海量業(yè)務(wù)架構(gòu)設(shè)計(jì)、云服務(wù)創(chuàng)業(yè)等經(jīng)歷,曾就職于騰訊、盛大、宜搜、永達(dá),并擔(dān)任大數(shù)據(jù)、搜索、移動(dòng)、信息安全等業(yè)務(wù)線總監(jiān)崗位。曾發(fā)起創(chuàng)立騰訊第1套具有核心專利技術(shù)百億級(jí)實(shí)時(shí)大數(shù)據(jù)平臺(tái),更早負(fù)責(zé)永達(dá)大型網(wǎng)絡(luò)安全管理平臺(tái)研發(fā)(保護(hù)全國(guó)鐵路客票核心業(yè)務(wù)系統(tǒng)和數(shù)十萬(wàn)節(jié)點(diǎn)安全),防DDOS系統(tǒng)研發(fā)等。 |
|
來(lái)自: 昵稱48052010 > 《待分類》