在傳統(tǒng)的終端/主機(jī)的網(wǎng)絡(luò)模式時代,終端功能簡單,無需維護(hù)工作,在主機(jī)一端進(jìn)行專門的管理與維護(hù),具有資源共享、便于管理的特點(diǎn)。但是,主機(jī)造價昂貴,終端沒有處理能力,限制了網(wǎng)絡(luò)的規(guī)?;l(fā)展。之后的客戶機(jī)/服務(wù)器模式推進(jìn)了計算產(chǎn)業(yè)的標(biāo)準(zhǔn)化和開發(fā)化的發(fā)展,為系統(tǒng)提供了相當(dāng)大的靈活性,但是隨著分布系統(tǒng)規(guī)模的規(guī)模擴(kuò)大,系統(tǒng)的維護(hù)和管理帶來了巨大的開銷。
面向Internet的服務(wù)型應(yīng)用,需要高性能的硬件平臺作為支持,將并行技術(shù)應(yīng)用在服務(wù)器領(lǐng)域中,是計算機(jī)發(fā)展的必然趨勢。并行處理技術(shù)在高性能計算領(lǐng)域中,高可用和高性能是集群服務(wù)器系統(tǒng)發(fā)展的兩個重要方向。
集群的概念
集群英文名稱是CLUSTER,是一組相互獨(dú)立的、通過高速網(wǎng)絡(luò)互聯(lián)的計算機(jī),它們構(gòu) 成了一個組,并以單一系統(tǒng)的模式加以管理。一個客戶與集群相互作用時,集群像是一個獨(dú)立的服務(wù)器。集群配置是用于提高可用性和可縮放性。
和傳統(tǒng)的高性能計算機(jī)技術(shù)相比,集群技術(shù)可以利用各檔次的服務(wù)器作為節(jié)點(diǎn),系統(tǒng)造價低,可以實(shí)現(xiàn)很高的運(yùn)算速度,完成大運(yùn)算量的計算,具有較高的響應(yīng)能力,能夠滿足當(dāng)今日益增長的信息服務(wù)的需求。
集群技術(shù)應(yīng)用的需求
Internet用戶數(shù)量呈幾何級數(shù)增長和科學(xué)計算的復(fù)雜性要求計算機(jī)有更高的處理能力,而CPU的發(fā)展無法跟上不斷增長的需求,于是我們面臨以下問題:
●大規(guī)模計算如基因數(shù)據(jù)的分析、氣象預(yù)報、石油勘探需要極高的計算性能。
●應(yīng)用規(guī)模的發(fā)展使單個服務(wù)器難以承擔(dān)負(fù)載。
●不斷增長的需求需要硬件有靈活的可擴(kuò)展性。
●關(guān)鍵性的業(yè)務(wù)需要可靠的容錯機(jī)制。
IA集群系統(tǒng)(CLUSTER)的特點(diǎn)
●由若干完整的計算機(jī)互聯(lián)組成一個統(tǒng)一的計算機(jī)系統(tǒng);
●可以采用現(xiàn)成的通用硬件設(shè)備或特殊應(yīng)用的硬件設(shè)備,例如專用的通訊設(shè)備;
●需要特殊軟件支持,例如支持集群技術(shù)的操作系統(tǒng)或數(shù)據(jù)庫等等;
●可實(shí)現(xiàn)單一系統(tǒng)映像,即操作控制、IP登錄點(diǎn)、文件結(jié)構(gòu)、存儲空間、I/O空間、作業(yè)管理系統(tǒng)等等的單一化;
●在集群系統(tǒng)中可以動態(tài)地加入新的服務(wù)器和刪除需要淘汰的服務(wù)器,從而能夠最大限度地擴(kuò)展系統(tǒng)以滿足不斷增長的應(yīng)用的需要;
●可用性是集群系統(tǒng)應(yīng)用中最重要的因素,是評價和衡量系統(tǒng)的一個重要指標(biāo);
●能夠?yàn)橛脩籼峁┎婚g斷的服務(wù),由于系統(tǒng)中包括了多個結(jié)點(diǎn),當(dāng)一個結(jié)點(diǎn)出現(xiàn)故障的時候,整個系統(tǒng)仍然能夠繼續(xù)為用戶提供服務(wù);
●具有極高的性能價格比,和傳統(tǒng)的大型主機(jī)相比,具有很大的價格優(yōu)勢;
●資源可充分利用,集群系統(tǒng)的每個結(jié)點(diǎn)都是相對獨(dú)立的機(jī)器,當(dāng)這些機(jī)器不提供服務(wù)或者不需要使用的時候,仍然能夠被充分利用。而大型主機(jī)上更新下來的配件就難以被重新利用了。
實(shí)現(xiàn)服務(wù)器集群的硬件配置 ●網(wǎng)絡(luò)服務(wù)器 兩臺 ●服務(wù)器操作系統(tǒng)硬盤 兩塊 ●ULTRA 160 LVD SCSI磁盤陣列 一個 ●18G SCSI硬盤 三塊 ●網(wǎng)絡(luò)服務(wù)網(wǎng)卡 四塊 服務(wù)器集群的實(shí)踐步驟
●在安裝機(jī)群服務(wù)之前的準(zhǔn)備:
1、 三塊18G SCSI硬盤組成磁盤陣列,做RAID5。 2、 兩臺服務(wù)器要求都配置雙網(wǎng)卡,分別安裝Microsoft Windows 2000 Advance Server操作系統(tǒng),并配置網(wǎng)絡(luò)。 3、 所有磁盤必須設(shè)置成基本盤,陣列磁盤分區(qū)必須大于2個。 4、 每臺服務(wù)器都要加入域當(dāng)中,成為域成員,并且在每臺服務(wù)器上都要有管理員權(quán)限。 ●安裝配置服務(wù)器網(wǎng)絡(luò)要點(diǎn) 1、在這一部分,每個服務(wù)器需要兩個網(wǎng)絡(luò)適配器,一個連接公眾網(wǎng),一個連接內(nèi)部網(wǎng)(它只包含了群集節(jié)點(diǎn))。 內(nèi)部網(wǎng)適配器建立點(diǎn)對點(diǎn)的通信、群集狀態(tài)信號和群集管理。每個節(jié)點(diǎn)的公眾網(wǎng)適配器連接該群集到公眾網(wǎng)上,并在此駐留客戶。 2、安裝Microsoft Windows 2000 Adwance Server 操作系統(tǒng)后,開始配置每臺服務(wù)器的網(wǎng)絡(luò)。在網(wǎng)絡(luò)連接中我們給連接公眾網(wǎng)的命名為"外網(wǎng)",連接內(nèi)部網(wǎng)的命名為"內(nèi)網(wǎng)"并分別指定IP地址為: 節(jié)點(diǎn)1:內(nèi)網(wǎng):ip:10.10.10.11 外網(wǎng)ip:192.168.0.192 子網(wǎng)掩碼:255.255.255.0 網(wǎng)關(guān):192.168.0.191(主域控制器ip) 節(jié)點(diǎn)2:內(nèi)網(wǎng):ip:10.10.10.12 外網(wǎng) ip:192.168.0.193 子網(wǎng)掩碼:255.255.255.0 網(wǎng)關(guān):192.168.0.191
●安裝配置陣列
1、對陣列做可校驗(yàn)的RAID5。并劃分分區(qū)。創(chuàng)建一個小分區(qū)(至少50兆)用來存儲群集 配置數(shù)據(jù)庫的檢測點(diǎn)和日志文件。這是集群中一個重要的關(guān)鍵分區(qū),一但他出現(xiàn)故障,將導(dǎo) 致整個集群的失敗。這里我們分配給他1G的空間,并命名為X盤符。 2、其他的分區(qū)根據(jù)用戶的需求可以自行設(shè)定。我們?yōu)榱朔奖阒环至艘粋€Y區(qū)。 3、注意:在集群中所有的磁盤都必須是基本盤并且都要采用NTFS格式。
●安裝集群服務(wù)軟件
【配置首節(jié)點(diǎn)】
1、所有的設(shè)備都先關(guān)閉(兩臺服務(wù)器、一臺磁盤陣列)。 2、先開啟磁盤陣列(在任何時候都要先開啟磁盤陣列,以免造成磁盤混亂)。 3、開啟節(jié)點(diǎn)1,用有管理員權(quán)限的用戶名登陸到域,用添加刪除程序來添加組件-集群服 務(wù)。在安裝過程中選擇這是集群的首節(jié)點(diǎn)。創(chuàng)建集群名稱。我們給命名為Mycluster。 5、 配置群集磁盤。由于我們只有一個共享的磁盤陣列,所以我們將這個陣列中的兩個分區(qū) 都配置成群集磁盤。 6、配置群集網(wǎng)絡(luò)。首先我們配置外網(wǎng),網(wǎng)絡(luò)名稱選擇外網(wǎng)。IP地址保持和外網(wǎng)的IP地址一致。選中該網(wǎng)絡(luò)可用于集群服務(wù)。選中所有的通信(混合網(wǎng)絡(luò))選項(xiàng)。進(jìn)行下一步。接下來配置內(nèi)網(wǎng),確保網(wǎng)絡(luò)名稱和IP地址跟內(nèi)網(wǎng)的一致,選中該網(wǎng)絡(luò)可用于集群服務(wù)。選中只用于內(nèi)部群集通信選項(xiàng)。 7、 點(diǎn)擊下一步按鈕,屏幕出現(xiàn)使用網(wǎng)絡(luò)的順序。我們調(diào)整為表里的第一個連接是內(nèi)網(wǎng)。這是因?yàn)椋涸谡5牟僮髦?,該連接將用于群集通信。如果內(nèi)部網(wǎng)絡(luò)連接失效,群集服務(wù)將自動切換到表里的下一個網(wǎng)絡(luò)。 8、執(zhí)行下一步將出現(xiàn)集群的IP和掩碼選項(xiàng)。這里輸入唯一的集群IP,我們設(shè)定為192.168.0.195 掩碼當(dāng)然還是:255.255.255.0。 9、單擊完成,完成首節(jié)點(diǎn)的群集配置。
【配置第二個節(jié)點(diǎn)】
1、保持陣列和第一個節(jié)點(diǎn)的開機(jī)和可用。給第二個節(jié)點(diǎn)上電開機(jī)。 2、象在首節(jié)點(diǎn)上安裝群集服務(wù)一樣,對第二個節(jié)點(diǎn)開始進(jìn)行安裝。 3、過程跟在首節(jié)點(diǎn)上在安裝群集服務(wù)大體相同,只有下列的不同之處: 在創(chuàng)建或添加群集對話框中,在群集中選擇第二個或下一個節(jié)點(diǎn),并單擊下一步。 輸入前面所創(chuàng)建的群集名稱(在本例中,是MyCluster),并單擊下一步。 將連接到群集設(shè)為未選中。群集服務(wù)配置向?qū)⒆詣犹峁?,在安裝首節(jié)點(diǎn)時選定 的用戶賬號名稱。 輸入該賬號的口令(如果有的話),并單擊下一步。 在下一個對話框中,單擊完成,結(jié)束配置。 將啟動群集服務(wù)。單擊確定。 關(guān)閉添加/刪除程序 如果要安裝額外的節(jié)點(diǎn),重復(fù)這些步驟,以便在其它節(jié)點(diǎn)上安裝群集服務(wù)。 檢驗(yàn)安裝 單擊開始,單擊程序,單擊管理工具,并單擊群集管理器。顯示的兩個節(jié)點(diǎn)表明,存在群集,而且它在運(yùn)行。 效能評測 ●容錯能力的檢驗(yàn) 對于他的容錯能力我們做了以下幾個實(shí)驗(yàn): 1、在兩臺節(jié)點(diǎn)和集群服務(wù)同時運(yùn)行的情況下,斷掉其中一個節(jié)點(diǎn)的外網(wǎng)連接或是當(dāng)?shù)粢慌_節(jié)點(diǎn),此時運(yùn)行在這個節(jié)點(diǎn)上的集群服務(wù)被迫斷開并轉(zhuǎn)移到另外一個連接正常的節(jié)點(diǎn)上,此過程大概要4秒鐘(視集群上運(yùn)行的服務(wù)數(shù)量而定,在安裝了SQL Server 2000服務(wù)之后這個過程延長到了9-15秒)。 2、在兩臺節(jié)點(diǎn)和集群服務(wù)同時運(yùn)行的情況下,我們更改了一臺節(jié)點(diǎn)的時間,在經(jīng)過大約10分鐘時間被修改的時間自動調(diào)整成同另一臺節(jié)點(diǎn)相同的設(shè)置。 3、我們在集群服務(wù)上開啟了web服務(wù),并設(shè)置了下載項(xiàng)目。在客戶端正在下載過程中斷掉集群中的一個節(jié)點(diǎn),客戶端并沒有明顯的感覺出有變化。 由以上實(shí)驗(yàn)可見用Windows 2000 Advance Server所做的集群在容錯方面具有良好的效能,他幾乎是瞬間就能把出錯的節(jié)點(diǎn)上的服務(wù)接管過來,相對于客戶端幾乎感覺不到有任何變化。同時他在周期時間內(nèi)所有節(jié)點(diǎn)進(jìn)行同步,以保證其一致性。 ●負(fù)載均衡能力的檢驗(yàn) 1、 Windows 2000 Advance Server 所做的集群是基于TCP/IP構(gòu)建的,他為共同工作且使用兩個或兩個以上主機(jī)群集的Web服務(wù)器提供了高度可用性和可伸縮性。因特網(wǎng)客戶使用單一的IP地址訪問群集??蛻舨荒軐我环?wù)器從群集中區(qū)分開來。服務(wù)器程序不能識別它們正運(yùn)行于一個群集中。但是,由于網(wǎng)絡(luò)負(fù)載均衡群集即使在群集主機(jī)發(fā)生故障的情況下仍能提供了不間斷的服務(wù),故而,它與運(yùn)行單一服務(wù)器程序的單一主機(jī)大相徑庭。與單一主機(jī)相比,群集還能對客戶需求做出更迅捷的反應(yīng)。 注意要點(diǎn) 我們在做集群實(shí)驗(yàn)的過程當(dāng)中遇到了一些問題,雖然最后都順利的解決了,但我想還是要在這里提出來讓大家注意,避免在今后的工作中出現(xiàn)不必要的重復(fù)的錯誤。 1、共享磁盤之中X盤的重要性。在實(shí)驗(yàn)的過程中我們也知道X盤相當(dāng)重要,為了驗(yàn)證他的重要地位,我們做了如下實(shí)驗(yàn):我們首先看到在X盤下面只有一個MSDN的文件夾,其中有兩個文件*.tmp和*.log,這就是上文所說的群集配置數(shù)據(jù)庫的檢測點(diǎn)和日志文件。我們試著刪除這兩個文件,結(jié)果*.tmp可以刪除,*.log文件正在使用而無法刪除。刪除了*.tmp文件之后我們重新啟動兩臺節(jié)點(diǎn)和集群。一切正常,進(jìn)入X盤看他的文件,發(fā)現(xiàn)被刪除的*.tmp文件又重新回到了里面,只是名字稍有些改變。這表明*.tmp文件是每次集群啟動時自動生成的一個文件,而集群啟動以后,這個文件就不在被使用。接著我們進(jìn)行了一個后來被證明 是毀滅性的實(shí)驗(yàn),我們在我的電腦管理里面的調(diào)整了磁盤管理,把X盤刪除了。結(jié)果可怕的事情發(fā)生了,在不到10秒鐘的時間內(nèi)兩臺節(jié)點(diǎn)相繼報告機(jī)群服務(wù)發(fā)生錯誤將不能運(yùn)行且終止服務(wù)。我們嘗試再次進(jìn)入磁盤管理,發(fā)現(xiàn)陣列的磁盤已經(jīng)變成了不可讀取。無奈之下我們重新啟動所有設(shè)備,期望能發(fā)生超乎設(shè)想的好的結(jié)果,但是事實(shí)讓我們不得不失望。集群服務(wù)無法啟動,陣列磁盤不可讀取。在沒有任何辦法的情況下我們不得不重新配置集群。
|