2016年,美國獨立研究機構(gòu)波萊蒙研究所發(fā)布了數(shù)據(jù)中心停機成本的最新數(shù)據(jù),2016年數(shù)據(jù)中心電力中斷的平均一分鐘成本為7900美元,有報告顯示,數(shù)據(jù)中心平均停機事故時長為90分鐘,估計估算每次停機損失在700000美元左右。如此重大的成本損失是由于現(xiàn)代數(shù)據(jù)中心均支持著企業(yè)的至關(guān)重要的網(wǎng)站和相關(guān)的云軟件應用程序。如何最大程度的保證最高的可靠性穩(wěn)定性,通過采取積極的預防措施,以減少數(shù)據(jù)中心計劃外的設備停機時間和其他可以避免的故障。是運維人員必須考慮的一個課題。本文將從預防性維護和預測性維護兩個方面進行討論。 首先解釋一下預防性維護和預測性的區(qū)別。早在汽車行業(yè),就已經(jīng)有兩者的區(qū)分。 汽車行業(yè)質(zhì)量管理體系IATF16949:2016標準 3.1.7 預見性維護(predictive maintenance) 基于過程數(shù)據(jù),通過預測可能的失效模式以避免維護性問題的活動。 3.1.8 預防性維護(prevention maintenance) 為消除設備失效和生產(chǎn)的計劃外中斷的原因而策劃的措施,作為制造過程設計的一項輸出。 在數(shù)據(jù)中心行業(yè),基本還是沿用了汽車行業(yè)的定義。 預/防/性/維/護 預防性維護:比較常見,也為國內(nèi)大多數(shù)運維及相關(guān)人員所熟知。通常由各零部件、設備、系統(tǒng)的廠家提出相關(guān)的固定周期的計劃性維護。部分優(yōu)秀運維團隊,也根據(jù)自身實際運維經(jīng)驗進行了一些完善和修訂。 其特點: 一、固定周期,通常一次性制定全年甚至是多年的計劃; 二、通常僅以設備進行分類,較為優(yōu)秀者通常會根據(jù)項目所在地區(qū),維護團隊實力,客戶性質(zhì),等項目特點而進適當調(diào)整; 三、但往往與設備實際運行狀態(tài)和數(shù)據(jù)無關(guān)。針對的是一類產(chǎn)品、系統(tǒng)。而非根據(jù)實際設備/產(chǎn)品實際運行狀態(tài)/性能而特意定制的以指定項目中的指定產(chǎn)品為準的維護。 預/測/性/維/護 由于數(shù)據(jù)中心行業(yè)蓬勃發(fā)展,行業(yè)近年來廣受關(guān)注,受益于技術(shù)進步,預見性維護近來備受重視。 預見性維護(預測性維護)是以運行狀態(tài)(性能)為依據(jù)的維修與維護,在設備/系統(tǒng)運行時,對它的主要(或需要)部位進行定期(或連續(xù))的狀態(tài)監(jiān)測和故障診斷,判定設備/系統(tǒng)所處的狀態(tài),預測設備/系統(tǒng)狀態(tài)未來的發(fā)展趨勢,依據(jù)設備/系統(tǒng)的狀態(tài)發(fā)展趨勢和可能的故障模式,預先制定預測性維護計劃,確定設備/系統(tǒng)應該保養(yǎng)/修理的時間、內(nèi)容、方式和必需的技術(shù)和物資支持。預測性維修集狀態(tài)監(jiān)測、故障診斷、故障(狀態(tài))預測、維修決策支持和維修活動于一體,結(jié)合大數(shù)據(jù)分析將成為數(shù)據(jù)中心行業(yè)的一種新興的維護方式。 (早在1999年既已成為汽車行業(yè)標準維修方式)。 預防性維護 七個方面 預防性維護是現(xiàn)在數(shù)據(jù)中心最普遍的運維方式,通過對設備的定期檢查,確保整個設備系統(tǒng)處于正常運轉(zhuǎn)的良好狀態(tài)。一流數(shù)據(jù)中心的預防性維護通常包含以下幾個方面: 數(shù)據(jù)中心包含著許多會影響技術(shù)人員的生命和健康的危險因素。數(shù)據(jù)中心的技術(shù)人員們必須在進行預防性維護活動時意識到這些潛在的安全風險。在必要的地方使用鎖定標簽。在執(zhí)行預防性維護任務時,數(shù)據(jù)中心的技術(shù)人員必須保證對于相關(guān)的健康和安全程序相當熟悉,嚴格按照流程執(zhí)行,記錄每個點的程序,并定期進行安全培訓。 針對UPS和電池執(zhí)行預防性維護可以在停電期間大大減少其運行失敗的機會。根據(jù)艾默生網(wǎng)絡能源公司最近的一項研究顯示,對于UPS單位而言,每年兩次預防性維護(PM)服務事件的平均故障間隔時間(MTBF)是每年沒有預防性維護服務事件的23倍。對于其他關(guān)鍵系統(tǒng),如暖通空調(diào)、發(fā)電機等同樣如此。定期的預防性維護可以減少設備運行失敗的機會,減少能源消耗量并延長設備使用壽命。根據(jù)設備制造商的建議實施預防性維護是一個好的開始。而這些預防性維護計劃可以隨著時間的推移進行修改。 使用標準化的檢查清單能夠確保技術(shù)人員知道在預防性維護階段需要做什么工作,同時保證了每一次的預防性維護均執(zhí)行相同的檢查標準。同樣,根據(jù)設備制造商的建議實施預防性維護是一個好的開始,并可以隨著時間的推移進一步的細化。在數(shù)據(jù)中心,這些被稱為標準操作程序(SOP),程序方式(MOP)和緊急操作程序(EOP)。某些工作可能需要額外的培訓和安全程序,因此,SOP、EOP和MOP應列出哪些是必需的。 鑒于數(shù)據(jù)中心停機存在潛在的成本,因此,及時完成預防性維護是非常重要的。要做到這一點最簡單的方法是測量和執(zhí)行預防性維護的相關(guān)規(guī)定。您企業(yè)的預防性維護合規(guī)性(PMC)的得分即是您根據(jù)相關(guān)規(guī)定實施完成維護工作的百分比。10%的維修規(guī)定就是一個很好的起點。規(guī)則規(guī)定,預防性維護措施應定期維護以間隔10%的速率完成。例如,預防性季度維護要求每隔90天進行一次,故預防性季度維護應在到期日的9天完成,否則就是不符合的規(guī)定的。采用10%的規(guī)則可以幫助保持您企業(yè)的預防性維護間隔不變,減少了時間變量的變化,從而提高了可靠性。 如果出了問題,沒有足夠的文件記錄可能會導致更大的麻煩。當審計人員來檢查時,請務必確保預防性維護工作訂單記錄是詳細可查的。同時,預防性維護工作的歷史工作訂單記錄信息可用于識別慢性設備問題和不可接受的停機時間水平,以便更好的找出解決方案,如定期檢查或預防性維護是否到位,以主動在未來減少停機水平。 就如同F(xiàn)acebook的CEO馬克·扎克伯格說過的那樣:“您不能改變您無法衡量的東西?!蓖ㄟ^諸如預防性維護的合規(guī)性、可用性和可靠性等KPI可以衡量您企業(yè)的預防性維護工作效果。進而優(yōu)化您的預防性維護,以最大限度地發(fā)揮其效力,同時最大限度地降低成本。 計算機化維護管理系統(tǒng)(CMMS)是幫助跟蹤,測量和改善您企業(yè)的預防性維護,并滿足上述6大提示和技巧的最好方法。計算機化維護管理系統(tǒng)(CMMS)有時也被稱為預防性維護軟件,其可以使設備管理人員及其下屬和客戶跟蹤他們的資產(chǎn)維護工作的狀態(tài),了解綜合系統(tǒng)的相關(guān)成本。CMMS軟件可以幫助數(shù)據(jù)中心降低維護成本,提高設備使用壽命,提高可靠性和生產(chǎn)效率,降低設備停機時間。其可以確保預防性維護是根據(jù)既定的協(xié)議定期進行。其也大大方便了維修技師能夠快速訪問設備的信息,如程序,工作秩序的歷史維護數(shù)據(jù)以及度量指標。 預測性維護 工業(yè)互聯(lián)網(wǎng) 機房運維人員經(jīng)常要會感受到一種壓力,需要不斷改進機房和運行環(huán)境下的維護流程。根據(jù)麥肯錫公司最近的一份大數(shù)據(jù)報告,生產(chǎn)過程所產(chǎn)生的數(shù)據(jù)要多于任何其它來源產(chǎn)生的數(shù)據(jù)。產(chǎn)生的數(shù)據(jù),遠未得到足夠的開發(fā)。 如果以這些數(shù)據(jù)為基礎(chǔ),從策略層面來實施維護流程,那么機房運維人員就可以實現(xiàn)所謂的預測性維護——將維護技術(shù)與從不同設備和機器上得到的實時信息關(guān)聯(lián)起來,從而可以實現(xiàn)按需完成維護工作。這樣不僅可以降低停機時間,還能消除在不必要的維護上所花費的時間和資源。 通過實施預測性維護——而不是應對性維護,可以降低設備整個生命周期內(nèi)的費用,這樣大多數(shù)的生產(chǎn)設施都有機會大幅提升它們的盈利水平。這有助于優(yōu)化能源利用,減少設備停機,以及獲得在其它方面的提升。 對于那些存在老舊、甚至是過時設備的生產(chǎn)設施來講,維護程序經(jīng)常會導致不必要的費用,比如運行停機、能源浪費和人力成本等。 按照傳統(tǒng)的維護程序,定期進行日常維護,這就意味著操作人員很有可能在對一些并不需要維護的設備進行保養(yǎng),這就意味著時間和資源的浪費;或者更換掉那些仍具有使用價值的設備。 使用傳統(tǒng)的維護程序,如果一個設備沒有按規(guī)定進行日常維護,那即使有某些征兆顯示其要發(fā)生事故,也可能被忽視。 另一方面,那些已經(jīng)按照實際需要,對設備和機器進行預測性維護的生產(chǎn)設施,與定期維護相比,在頻率上會差異。利用網(wǎng)絡、互聯(lián)設備等基礎(chǔ)設施所產(chǎn)生的數(shù)據(jù),來處理諸如能源利用效率、溫度、產(chǎn)量等事項,運維人員和可以判斷哪些設備運轉(zhuǎn)正常、哪些設備可能要出故障。 運維人員就可以據(jù)此做出決策:何時進行維護、安排設備離線,或者在當前的條件下,安排某些設備持續(xù)運行。 當某些設備不能滿負荷運行、但是其輸出仍可以保持在正常變動范圍之內(nèi)時,運維人員就可以利用預測維護,避免“事實”上的停機。 網(wǎng)絡、互聯(lián)設備、以及采集、監(jiān)視和分析得到的數(shù)據(jù)(通常被稱之為大數(shù)據(jù))是預測性維護流程的基礎(chǔ)。這些數(shù)據(jù)基礎(chǔ)設施以及數(shù)據(jù)驅(qū)動的智能信息,也就是我們正在熱議的物聯(lián)網(wǎng)(IoT)。根據(jù)Gartner公司的定義,物聯(lián)網(wǎng)就是包含嵌入式技術(shù)以實現(xiàn)與內(nèi)部狀態(tài)或外部環(huán)境之間的通訊、感知、或互動的物理對象和連接的設施,它能實現(xiàn)對整個機房設備的監(jiān)視。運維人員可以根據(jù)物聯(lián)網(wǎng)所提供的數(shù)據(jù)和信息,將機房切換到預定的預測維護模式。 實現(xiàn)預測性維護,不能一蹴而就,需要多層次、逐步完成。下面是在生產(chǎn)設施內(nèi)開始實施預測性維護的兩個關(guān)鍵步驟: 改變采購優(yōu)先等級:工欲善其事,必先利其器,想要利用大數(shù)據(jù)以及物聯(lián)網(wǎng)來實現(xiàn)預測維護,必須要有能夠產(chǎn)生這些運營數(shù)據(jù)的設備?;ヂ?lián)設備逐漸成為范式,但是在采購流程中,必須將采購優(yōu)先級從傳統(tǒng)設備轉(zhuǎn)移到可以使用網(wǎng)絡通訊的互聯(lián)機器上。 利用互聯(lián)設備所產(chǎn)生的數(shù)據(jù),可以避免單一故障事件以及因之而引起的生產(chǎn)線停機所造成的損失,在一定程度上可以補償采購具有網(wǎng)絡功能的設備所需要付出的額外成本。采購決策必須基于整個生命周期內(nèi)的使用成本而不僅僅是前期的投資。 啟用數(shù)據(jù)專家:一旦設備完成網(wǎng)絡連接,具有測量和監(jiān)視數(shù)據(jù)功能,運維人員就可以與數(shù)據(jù)專家合作,確保設備能夠以最優(yōu)的方式采集和使用數(shù)據(jù)。數(shù)據(jù)專家可以通過對現(xiàn)場甚至是虛擬場景的評估,來改進數(shù)據(jù)運營。 聯(lián)網(wǎng)設備采集的數(shù)據(jù),可以存儲在云端,通過一個基于服務器的模型來實現(xiàn)虛擬監(jiān)視。當數(shù)據(jù)被虛擬存儲時,就可以對其進行訪問、分析,并在數(shù)據(jù)專家的幫助和指導下,用其指揮和實施預測性維護。這種虛擬化,作為數(shù)據(jù)專家提供服務的一種,可以加速在機房內(nèi)實現(xiàn)預測維護。 結(jié)/語 經(jīng)過綜合考慮的預測性維護程序,可以為數(shù)據(jù)中心運行帶來顯著的收益。有效利用預測性維護的數(shù)據(jù)中心,可以獲得可觀的運營收益以及競爭優(yōu)勢。一旦某個設備實現(xiàn)互聯(lián),相關(guān)運維人員必須相信由這些數(shù)據(jù)所得出的結(jié)論,從而可以從基于數(shù)據(jù)的預測性維護中獲得最大的收益,盡管這些結(jié)論可能會對以前的優(yōu)化生產(chǎn)參數(shù)認知造成挑戰(zhàn)。 -End- *本文由磐石運維組整理 (來源 IDC思想庫) |
|
來自: yi321yi > 《基礎(chǔ)設施》