數(shù)據(jù)中心雖然是高技術(shù)密度,低人力密度的行業(yè),但終究離不開人的維護。從某種角度說,數(shù)據(jù)中心對人力的需求也是非常大的。包括調(diào)試、運維等等,都需要有工程師長期在現(xiàn)場工作。 雖然智能運維、無人運維在數(shù)據(jù)中心行業(yè)是多年的熱門話題,但實際情況上推進并不理想。甚至在各大核心城市嚴控數(shù)據(jù)中心建設(shè)的今天,位處城區(qū)辦公室的運維人員驅(qū)車百里,去郊區(qū)甚至臨近城市的機房做現(xiàn)場運維已經(jīng)成了常有之事。 然而在2020年春天,由于一場疫情,數(shù)據(jù)中心的無人值守需求再次緊迫起來。 從數(shù)據(jù)中心這個設(shè)施出現(xiàn)起,人就是這個精密的高科技體系中最不穩(wěn)定的因素。根據(jù)一項2013-2018年期間的調(diào)查顯示,人為失誤是導(dǎo)致數(shù)據(jù)中心宕機的第二大原因,占相關(guān)事件總量的24%——占據(jù)第一位的是電源故障,占比25%。 可以說,數(shù)據(jù)中心行業(yè)一直在想盡辦法降低人為失誤造成的損害,用各種系統(tǒng)、智能的方式來替代人工操作。但無數(shù)年過去,除了在一些宣傳稿中反復(fù)出現(xiàn),無人值守在數(shù)據(jù)中心領(lǐng)域依舊是一個人人叫好,卻鮮有施行的“趨勢”。 目前看來,數(shù)據(jù)中心不僅是技術(shù)密集型行業(yè),也是“經(jīng)驗密集型”的工作。很多數(shù)據(jù)中心故障需要富有經(jīng)驗的運維人員來查找、定位、解決。不同的數(shù)據(jù)中心,也有不同的特性,往往需要運維人員日積月累的關(guān)注每一個子系統(tǒng)的運行,并對機房設(shè)備關(guān)聯(lián)熟念于心,才可能在故障發(fā)生時,第一時間進行解決。 雖然數(shù)據(jù)中心的監(jiān)控設(shè)施日益完善和豐富,遠遠超出了人能感知的范圍,但龐大的體系,混沌的系統(tǒng)影響,依舊讓純粹依賴數(shù)據(jù)來判斷問題所在存在很大的困難。甚至有些問題,和數(shù)據(jù)表現(xiàn)并不相關(guān),呈現(xiàn)一種“玄學(xué)”狀態(tài)。 實際上,這一切問題的根源依舊是技術(shù)能力的不足。 安全、穩(wěn)定,一直是數(shù)據(jù)中心行業(yè)的首要原則。這也導(dǎo)致了很多超前的新技術(shù)得不到驗證。比如液冷,比如智能巡檢,比如無人值守等等……特別是無人值守,最大困難其實來自人的自身:不放心。例如Uptime Institute建議無人值守數(shù)據(jù)中心需要一到兩名工作人員留守,以支持TierIII級或Tier IV級數(shù)據(jù)中心設(shè)施的安全運行。 在測試液冷時,運維工程師會圍繞在服務(wù)器周圍,觀察每一個細小的變化,及時解決每一個出現(xiàn)的問題。測試智能巡檢時,工程師會跟在機器人的身后,監(jiān)控路線,核對每一個數(shù)據(jù)的準確性。而無人值守,就真的“無人”了。 但是這一次,意外的疫情導(dǎo)致各大數(shù)據(jù)中心人力不足,必然要加大對監(jiān)控設(shè)備、智能控制、遠程控制等技術(shù)的應(yīng)用,并就此積累豐富的實踐數(shù)據(jù)。 當(dāng)然,這一次可以說只是一次“遠程”運維嘗試,而且會配合當(dāng)?shù)氐倪\維人員——數(shù)據(jù)中心為了保證平穩(wěn)運行,節(jié)假日期間都是有值守人員的。并且在疫情期間為了更好的支持服務(wù),很多數(shù)據(jù)中心已經(jīng)開始恢復(fù)正常的運作。 要真正走到無人值守,不僅僅需要人的離開、增加監(jiān)控維度、加強智能化設(shè)備,更重要的是以IT設(shè)備為中心,而不是以人為中心來建設(shè)全新的數(shù)據(jù)中心,屆時數(shù)據(jù)中心將有全新的面孔和特性,相比如今的數(shù)據(jù)中心將更加具有優(yōu)勢。 雖然說人為失誤是數(shù)據(jù)中心故障的主要罪魁禍首,但反過來,數(shù)據(jù)中心對人類也并不友好。數(shù)據(jù)中心的不同設(shè)備所需的溫度不盡相同,并且充滿了噪音、氣流,對人體來說并不是適宜的環(huán)境。脫離了人類管理的數(shù)據(jù)中心,可以完全按照IT設(shè)備的需求設(shè)置環(huán)境溫度,甚至沉到水中,或者為了防范火災(zāi)充滿某些氣體等,這些環(huán)境是人類無法生存的。 我們經(jīng)??吹匠髷?shù)據(jù)中心的新聞,如果仔細看就會發(fā)現(xiàn)這些數(shù)據(jù)中心之中,除了機房設(shè)備,還配備有種類繁多的配套空間,其中人員辦公、休息場合往往占地龐大。就算IT設(shè)備房間內(nèi),也需要為人員通行、設(shè)備檢修等留下足夠的空間。甚至在高標準的數(shù)據(jù)中心,寬敞的走廊和大廳已經(jīng)成為了一種炫耀資本。但實際上,這些空間可以認為是被人的需求浪費掉了。以IT設(shè)備為核心的數(shù)據(jù)中心設(shè)計,將更加高效的利用這些空間,提升數(shù)據(jù)中心的設(shè)備承載能力。 雖然24*7是現(xiàn)在數(shù)據(jù)中心服務(wù)的標配,但實際上任何人的服務(wù)都是有一定的響應(yīng)時間的。加上溝通信息損失、人為判斷失誤,甚至懈怠、懶惰等情況,人工值守的反應(yīng)時間離“即時”這個要求還差得遠。未來的無人值守機房,必然加大智能化處理,或者通過機器人來進行日常運維以及故障排除。 可以說,無人值守確實是未來,但需要更強有力的推進和更深入的技術(shù)探索。對于數(shù)據(jù)中心的運維工程師來說,無人值守也不意味著失去一份工作。豐富的運維經(jīng)驗,對于研發(fā)和生產(chǎn)無人值守機房所需的設(shè)備一樣是寶貴的財富。這將是一次真正的數(shù)字化升級,面對的不僅是數(shù)據(jù)中心產(chǎn)業(yè),也是整個以數(shù)據(jù)中心為基礎(chǔ)的數(shù)字化社會的升級。 |
|