加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室
全球知名的數(shù)據(jù)中心標準組織和認證機構(gòu)Uptime Institute最近開展了第八次數(shù)據(jù)中心技術(shù)年度調(diào)查,其內(nèi)容涵蓋關于數(shù)據(jù)中心的技術(shù)應用、冗余級別、機架密度、人員配置和技能、氣候變化準備等。這引起業(yè)界人士的關注和討論。但即便是最詳細權(quán)威的調(diào)查也會引發(fā)爭議和懷疑,這也許是由于定義、樣本量、偏差,甚至是偏見造成的,有時會看到數(shù)據(jù)中心高管對此束手無策,并試圖解釋或證明奇怪或無可辯駁的發(fā)現(xiàn)。
對Uptime Institute的調(diào)查結(jié)果很少有人提出異議,但人們一直在關注有關數(shù)據(jù)中心業(yè)務中斷或停電問題的頭條新聞,想知道其調(diào)查數(shù)據(jù)是否正確,或者它是否真的支持明顯的結(jié)論。這個調(diào)查報告明確表明,與以往的調(diào)查相比,數(shù)據(jù)中心業(yè)務中斷事件很常見,并且顯然越來越多。但是有一些人對這一發(fā)現(xiàn)提出質(zhì)疑,其中包括Uptime Institute一些內(nèi)部人士。這可能是因為數(shù)據(jù)中心設備、專業(yè)知識、管理措施比五年或十年前更加先進完善。那么業(yè)務中斷怎么可能更常見?
此外,人們還有一個爭論的話題:數(shù)據(jù)中心能源效率是否以犧牲可靠性為代價?正如Uptime Institute調(diào)查報告的PUE數(shù)據(jù)顯示,能源效率在過去五年中有明顯改善,而數(shù)據(jù)中心可靠性似乎正在惡化。這是否意味著這二者之間有關聯(lián)?這當然是可能的,圍繞數(shù)據(jù)中心基礎設施冗余的一些調(diào)查結(jié)果也表明了這一點。但Uptime Institute對此沒有確定,并沒有將這些問題聯(lián)系在一起,因為就算有一定的相關性,也不是因果關系。
尋找答案
為了更接近事實,需要深入挖掘,包括采用一些新方式處理數(shù)據(jù)。為此,Uptime Institute提出了10個與數(shù)據(jù)中心可靠性相關的問題,其中包括兩個或三個關鍵問題。在回答這個問題的644位企業(yè)高管、IT員工和關鍵設施經(jīng)理中,近三分之一(30.8%)的受訪者表示,在過去一年中經(jīng)歷過IT停機事件或“服務嚴重退化”,而在一年,只有26.9%的受訪者這么認為。這看起來有明顯的上升。
此外,還提出“在過去三年中遇到過業(yè)務中斷嗎?”這個問題,而這在前幾年的調(diào)查中沒有提出,但即便如此,數(shù)據(jù)中心中斷/事故的發(fā)生率遠高于Uptime Institute的預期(48.1%的受訪者對此表示肯定)。這看起來并不像行業(yè)廠商廣泛宣稱的99.999%的可用性。但人們的爭論并不止于此。Uptime Institute越來越多地將業(yè)務中斷視為復雜且通常是多站點IT服務中斷事件,而不僅僅是單站點設施事件。
Uptime Institute希望更好地了解導致數(shù)據(jù)中心停電的原因,例如電力、網(wǎng)絡和IT甚至第三方服務的百分比,并改變了措辭。Uptime Institute在2018年對此描述為“IT服務中斷或嚴重的服務質(zhì)量下降。”而在2017年使用了“在自己的數(shù)據(jù)中心或服務提供商的數(shù)據(jù)中心中影響業(yè)務的數(shù)據(jù)中心中斷”這一描述。不幸的是,這種變化并非如此(雖然這兩個定義明確涵蓋了一系列中斷)。
對設施管理人員、IT管理人員和高管的調(diào)查中,又提出了一個問題,“數(shù)據(jù)中心工作人員是否會看到與高級IT經(jīng)理或企業(yè)CIO相同的停機次數(shù)?”企業(yè)CIO很可能對在公共云(托管數(shù)據(jù)中心)中運行的所有服務負責,或者負責主要的企業(yè)設施,因此可能會遇到更廣泛的中斷(包括退化)。
Uptime Institute收集了有關工作角色的數(shù)據(jù)以及他們在2018年遇到業(yè)務中斷的情況。2018年的調(diào)查數(shù)據(jù)確實表明企業(yè)CIO收到更多中斷的報告。38%的IT經(jīng)理表示,他們的組織在過去一年中經(jīng)歷了停電(三年中為57%)。數(shù)據(jù)中心關鍵設施工作人員報告的數(shù)字遠低于此:22%的人表示在一年中經(jīng)歷業(yè)務中斷(三年內(nèi)為38%)。在這兩種情況下,超過三分之二的受訪者表示業(yè)務中斷只影響一個站點。然而,IT管理部門報告說網(wǎng)絡中斷是最常見的問題,而設施管理人員報告說,現(xiàn)場電力中斷是造成停電的主要原因。出于多種原因,業(yè)務經(jīng)理往往會看到更少的業(yè)務中斷。
那么這是否意味著數(shù)據(jù)中心停電事件正在增加?這有些令人擔心,根據(jù)2017年的調(diào)查數(shù)據(jù),關鍵設施管理人員在2017年遭遇了更多中斷(2018年為28%,而2017年為22%)。但是,IT報告中,企業(yè)管理人員比例在2018年增加到38%,比2017年增加了5%。
總體而言,表示經(jīng)歷中斷的調(diào)查受訪者的百分比上升,但結(jié)果表明那些具有更廣泛IT角色的人員會看到更多中斷,甚至有一些模糊性和角色和定義的變化。這一發(fā)現(xiàn)似乎可能是出現(xiàn)更多的IT和網(wǎng)絡故障。如果能夠進一步進行調(diào)查和研究,期望數(shù)據(jù)中心業(yè)務中斷的增加與能源效率無關。盡管如此,采用“N+1”冗余架構(gòu)的數(shù)據(jù)中心設施中斷的失敗率高于成本更高、采用更少能源的高效的2N冗余架構(gòu)。
所有這些發(fā)現(xiàn)都支持Uptime Institute的立場,即現(xiàn)在考慮IT和服務提供商的問題以及與站點相關的問題,從整體上看待數(shù)據(jù)中心的可靠性和故障率是有意義的。
在這個調(diào)查報告中,以及關于停電的更詳細的報告中,Uptime Institute的數(shù)據(jù)表明數(shù)據(jù)中心停電仍然“普遍、昂貴、可預防的,甚至可能會增加。”拋開所有的細微差別,傳達給數(shù)據(jù)中心和關鍵IT服務運營業(yè)務的組織的信息非常簡單:需要關注所有服務和整個堆棧,否則將付出更大的代價。