加入收藏 設(shè)為首頁(yè) 聯(lián)系我們 歡迎光臨本網(wǎng)站!
郵箱:support@zcecs.com
地址:北京市西城區(qū)南濱河路27號(hào)貴都國(guó)際中心A座1111室
1)SLA的顆粒有多少維度?
2)SLA與設(shè)計(jì)
3)SLA與成本
SLA的顆粒度
SLA:Service level agreement,服務(wù)水平協(xié)議/約定,一般會(huì)通過(guò)服務(wù)的受影響范圍、受影響時(shí)間定義服務(wù)能保障的水平,并有相應(yīng)的懲罰措施,以免僅僅是一紙空文的約束。另一方面數(shù)據(jù)中心綜合服務(wù)往往提供多項(xiàng)服務(wù),其SLA也可以根據(jù)服務(wù)種類進(jìn)行劃分。
1)受影響范圍
①一般可以按照同一客戶或者應(yīng)用側(cè)感知同類服務(wù)受影響的比例來(lái)約定SLA的故障或者事故的定義。
對(duì)于云服務(wù)及IDC等有較合理計(jì)費(fèi)單位,可以按照受影響的同類業(yè)務(wù)或者服務(wù)計(jì)費(fèi)單位比例來(lái)計(jì)算,比如受影響的流量或者服務(wù)器數(shù)量占用總計(jì)費(fèi)數(shù)量的比例,或者機(jī)柜數(shù)/總租用機(jī)柜數(shù)。
對(duì)于對(duì)服務(wù)質(zhì)量有較高要求的EDC或者自營(yíng)業(yè)務(wù)等內(nèi)部計(jì)費(fèi)或者結(jié)算單位可能不夠詳盡,可以參考IDC或者云服務(wù)商們提供的計(jì)算方式。
②也可以按照同一客戶或者應(yīng)用側(cè)總服務(wù)受影響的比例來(lái)約定SLA的故障或者事故的定義。
總服務(wù)與同類服務(wù)的區(qū)別在于,不再劃分上層業(yè)務(wù)系統(tǒng),只簡(jiǎn)單劃分核心與非核心或者生產(chǎn)與非生產(chǎn)兩大類服務(wù),以受影響的基礎(chǔ)承載資源比例計(jì)算和定義其故障與事故。
③對(duì)服務(wù)提供商自身的內(nèi)部管理而言,往往跨越了多客戶或者應(yīng)用側(cè)多部門多終端,按照其業(yè)務(wù)類型比如IDC,IAAS,PAAS,SAAS,分別計(jì)算其承載的基礎(chǔ)資源或者計(jì)費(fèi)單位受影響的比例,并以此來(lái)定義故障與事故。
④由于行業(yè)蓬勃發(fā)展,競(jìng)爭(zhēng)激勵(lì),一般受影響比例不超過(guò)10%,即確定為需要賠償或者處罰等啟動(dòng)追責(zé)之事故。
2)受影響時(shí)間:
①統(tǒng)計(jì)周期按年計(jì)算;
②統(tǒng)計(jì)周期按季度計(jì)算;
③統(tǒng)計(jì)周期按月度計(jì)算;
④統(tǒng)計(jì)周期按天計(jì)算;
⑤統(tǒng)計(jì)周期按小時(shí)計(jì)算;
⑥統(tǒng)計(jì)周期按S計(jì)算;
a:受影響時(shí)間,按可靠性計(jì)算;
b:受影響時(shí)間,按照s計(jì)算;
b與a可按下式換算:
b=N*(1-a);
N為以秒S計(jì)算的統(tǒng)計(jì)周期時(shí)間。
3)服務(wù)種類:
①網(wǎng)絡(luò)服務(wù)
除三大運(yùn)營(yíng)商外,及部分中立多點(diǎn)間專營(yíng)直聯(lián)網(wǎng)絡(luò)外,網(wǎng)絡(luò)服務(wù)往往由第三方提供,其服務(wù)的水平保障較依賴運(yùn)營(yíng)商和選擇的路由,因此往往SLA中會(huì)不約定此項(xiàng),或者會(huì)單獨(dú)約定。
②電力供應(yīng)服務(wù)
③其他環(huán)境等基礎(chǔ)服務(wù)
比如溫濕度控制等,或者改造及日常維護(hù)等各種輔助服務(wù)。往往以服務(wù)器宕機(jī)為事故標(biāo)準(zhǔn)。
④IAAS
⑤PAAS
⑥SAAS
④-⑥往往以客戶或者終端或者應(yīng)用側(cè)感知的由提供服務(wù)引起的故障為事故標(biāo)準(zhǔn)。
4)懲罰措施
①補(bǔ)償受影響時(shí)間的倍數(shù)
②補(bǔ)償受影響范圍的倍數(shù)
③補(bǔ)償上限
④補(bǔ)償相關(guān)損失
設(shè)計(jì)與SLA
1)SLA的設(shè)計(jì)目標(biāo)將根據(jù)以下綜合確定:
①潛在客戶的要求
②行業(yè)標(biāo)準(zhǔn)
③服務(wù)價(jià)格與利潤(rùn)預(yù)期
④實(shí)現(xiàn)SLA的成本
2)SLA設(shè)計(jì)與計(jì)算:
①SLA設(shè)計(jì)時(shí),罰則代表的是違反SLA的代價(jià)。故障與事故、服務(wù)中斷的定義往往均根據(jù)行業(yè)標(biāo)準(zhǔn)和慣例,進(jìn)行設(shè)計(jì),并根據(jù)潛在或者客戶市場(chǎng)反饋進(jìn)行一定的差異化設(shè)計(jì)。而實(shí)現(xiàn)基礎(chǔ)SLA的成本,往往需要借助可靠性這樣一個(gè)量化指標(biāo)。
②SLA中的關(guān)鍵設(shè)施或者服務(wù)的可靠性,我們?cè)谇拔摹?a data-itemshowtype="0" data-linktype="2" hasload="1" style="margin: 0px; padding: 0px; color: rgb(87, 107, 149); text-decoration-line: none; -webkit-tap-highlight-color: rgba(0, 0, 0, 0); max-width: 100%; box-sizing: border-box !important; word-wrap: break-word !important;" target="_blank">[基礎(chǔ)]:MTBF與可靠性》中重點(diǎn)提示大家,要和MTBF區(qū)別開(kāi)來(lái)。MTBF(平均無(wú)故障工作時(shí)間)是統(tǒng)計(jì)意義上的可靠性與我們要實(shí)現(xiàn)的可靠性完全不是一個(gè)概念。
③對(duì)于經(jīng)過(guò)優(yōu)秀的專業(yè)設(shè)計(jì)、建設(shè),并有專業(yè)維護(hù)和運(yùn)行團(tuán)隊(duì)保障的專業(yè)運(yùn)營(yíng)級(jí)數(shù)據(jù)中心或者相應(yīng)的云服務(wù),在一個(gè)運(yùn)營(yíng)期內(nèi)數(shù)據(jù)中心的故障概率實(shí)際上已經(jīng)通過(guò)專業(yè)設(shè)計(jì)、建設(shè)、測(cè)試與驗(yàn)收去除了浴缸曲線的前半段,通過(guò)科學(xué)合理的設(shè)備全生命周期預(yù)測(cè)及預(yù)防性維護(hù)與更新,撫平了浴缸曲線的后半段;究梢哉J(rèn)為故障概率是平均偶發(fā)的,其概率密度曲線可以認(rèn)為是常數(shù)。
④在數(shù)據(jù)中心基礎(chǔ)設(shè)施層面,單個(gè)系統(tǒng)或者設(shè)備往往是由多個(gè)元器件構(gòu)成,其可靠性應(yīng)按照單個(gè)元器件分別計(jì)算后,根據(jù)可靠性模型,依據(jù)相應(yīng)的串并聯(lián)關(guān)系進(jìn)行可靠性的綜合計(jì)算。
3)SLA常見(jiàn)設(shè)計(jì)優(yōu)化策略:
①通過(guò)可靠性計(jì)算明確短板所在;
②通過(guò)經(jīng)濟(jì)性計(jì)算明確刀刃所在;
③權(quán)衡提高SLA的成本與收益;
④權(quán)衡降低SLA的代價(jià)與風(fēng)險(xiǎn)。
4)虛擬案例:(純屬虛構(gòu),如有雷同,實(shí)屬巧合)
項(xiàng)目背景:汕尾,某港資背景房地產(chǎn)開(kāi)發(fā)商并未撤向歐洲而是全部轉(zhuǎn)向大陸。從將軍澳架設(shè)海底光纜直連汕尾,通過(guò)IPV9聯(lián)向全國(guó)核心節(jié)點(diǎn)。計(jì)劃建立相當(dāng)于1000萬(wàn)通用標(biāo)準(zhǔn)計(jì)算與存儲(chǔ)節(jié)點(diǎn)覆蓋IDC、IAAS、PAAS、SAAS全生態(tài)的基礎(chǔ)設(shè)施。
項(xiàng)目SLA需求:
①滿足現(xiàn)在及未來(lái)多種客戶的需求;
②最大程度上創(chuàng)造利潤(rùn)。
項(xiàng)目SLA設(shè)計(jì)目標(biāo)分級(jí):
①可靠性
Ⅰ級(jí),R>99.99%
Ⅱ級(jí),R>99.9%
Ⅲ級(jí),R>99%
②賠償時(shí)間
Ⅰ級(jí),1000倍故障時(shí)間補(bǔ)償,且不超過(guò)合同時(shí)間
Ⅱ級(jí),100倍故障時(shí)間補(bǔ)償,且不超過(guò)合同時(shí)間
Ⅲ級(jí),10倍故障時(shí)間補(bǔ)償,且不超過(guò)合同時(shí)間
Ⅳ級(jí),1倍故障時(shí)間補(bǔ)償
③賠償比例
Ⅰ級(jí),1000倍故障區(qū)域補(bǔ)償,且不超過(guò)服務(wù)區(qū)域
Ⅱ級(jí),100倍故障區(qū)域補(bǔ)償,且不超過(guò)服務(wù)區(qū)域
Ⅲ級(jí),10倍故障區(qū)域補(bǔ)償,且不超過(guò)服務(wù)區(qū)域
Ⅳ級(jí),1倍故障區(qū)域補(bǔ)償
④計(jì)劃維護(hù)時(shí)間
Ⅰ級(jí),計(jì)劃維護(hù)時(shí)間≤0h
Ⅱ級(jí),計(jì)劃維護(hù)時(shí)間≤7.2h
Ⅲ級(jí),計(jì)劃維護(hù)時(shí)間≤72h
SLA設(shè)計(jì)與計(jì)算關(guān)鍵點(diǎn):
①SLA設(shè)計(jì)時(shí)應(yīng)注意不要忽略人力、物資庫(kù)存、財(cái)務(wù)等硬件之外的軟件設(shè)計(jì)。
表1-總體可靠性分級(jí)
②根據(jù)前文《[基礎(chǔ)]:MTBF與可靠性》,當(dāng)故障概率λ2為常數(shù)時(shí):
預(yù)期壽命T=2MTBF;λ2=1/2MTBF;
系統(tǒng)無(wú)故障運(yùn)行時(shí)間等于MTBF的可靠性,
R(MTBF)=50%;
系統(tǒng)無(wú)故障運(yùn)行時(shí)間等于MTBF/100的可靠性,
R(MTBF/100)=99%
當(dāng)采用1+1冗余時(shí),MTBF=10萬(wàn)h,第一年無(wú)故障運(yùn)行的可靠性僅達(dá)到Ⅲ級(jí);前五年無(wú)故障運(yùn)行的概率僅有95.2%。附表2為部分常見(jiàn)冗余和MTBF下,系統(tǒng)的可靠性計(jì)算結(jié)果。
表2-MTBF與可靠性-專業(yè)偶發(fā)類
說(shuō)明:
*1,R-N,分析單元自身的可靠性;
*2,F(xiàn)-N,分析單元自身的故障率,1-R-N;
*3,R-N+X,含X冗余后的分析單元的可靠性,
∑C(N+X,I)*R-N^I*F-N^(N+X-I),I從N到N+X;
*4,紅色的說(shuō)明計(jì)算單元在指定時(shí)間內(nèi)無(wú)故障運(yùn)行的可靠性超過(guò)Ⅲ類,綠色Ⅱ類,藍(lán)色Ⅰ類;
*5,均為100%卻顯示不同顏色主要是顯示位數(shù)的問(wèn)題,可通過(guò)故障率反算其可靠性。
③根據(jù)前文《[基礎(chǔ)]:MTBF與可靠性》,當(dāng)單元可靠性服從e^-λt時(shí):
λ=1/MTBF;
系統(tǒng)無(wú)故障運(yùn)行時(shí)間等于MTBF的可靠性,
R(MTBF)=36.79%;
系統(tǒng)無(wú)故障運(yùn)行時(shí)間等于MTBF/100的可靠性,
R(MTBF/100)=99%
當(dāng)采用1+1冗余時(shí),MTBF=10萬(wàn)h,第一年無(wú)故障運(yùn)行的可靠性僅達(dá)到Ⅲ類;前五年無(wú)故障運(yùn)行的概率僅有87.4%。附表3為部分常見(jiàn)冗余和MTBF下,系統(tǒng)的可靠性計(jì)算結(jié)果。
表3-MTBF與可靠性-電器及控制類
④是不是SLA承諾R>99%,該單元就一定要可靠性達(dá)到99%呢?并不是,主要看違反的代價(jià)和遵守的成本。遵守的成本按照可靠性計(jì)算增量冗余的增量成本,賠償成本要看SLA中設(shè)計(jì)的賠償時(shí)間與賠償區(qū)域比例及增量冗余前的可靠性期望。
SLA與成本
無(wú)論系統(tǒng)或者節(jié)點(diǎn)的可靠性服從哪種規(guī)律,依據(jù)MTBF的定義可知,MTBF實(shí)際上是系統(tǒng)壽命/正常運(yùn)行時(shí)間的期望?紤]企業(yè)盈利,其SLA等級(jí)設(shè)置應(yīng)滿足下式:
(1-①可靠性)*②賠償時(shí)間*③賠償比例<A/KB;
式中:
①取可靠性設(shè)計(jì)數(shù)值,②③取賠償倍數(shù);
A為服務(wù)利潤(rùn)率;
K為可靠性風(fēng)險(xiǎn)偏離期望的倍數(shù);
B為愿意承擔(dān)的風(fēng)險(xiǎn)系數(shù),B=1保本,B=2愿意承擔(dān)利潤(rùn)虧掉一半,B=0.5愿意承擔(dān)賠償后虧損率達(dá)到原服務(wù)利潤(rùn)率。
如果運(yùn)營(yíng)方資金雄厚,可以承擔(dān)和抵抗風(fēng)險(xiǎn)波動(dòng)和賠償損失而不影響運(yùn)營(yíng)和決策能力,且其為新入行或者跨界進(jìn)入DC行業(yè)?梢园凑障率脚渲闷銼LA等級(jí):
K=1;
而一般企業(yè),專業(yè)運(yùn)營(yíng)K<2,合格運(yùn)營(yíng)K<3。
SLA等級(jí)設(shè)計(jì)完成后,其違反代價(jià)即可計(jì)算得出。而其成本,設(shè)計(jì)實(shí)現(xiàn)路徑,卻需要進(jìn)行經(jīng)濟(jì)分析:
①設(shè)計(jì)高可靠性架構(gòu),一次性投入大,要求整個(gè)壽命周期內(nèi)可靠性達(dá)標(biāo);
②設(shè)計(jì)典型可靠性架構(gòu),當(dāng)可靠性隨著時(shí)間可能低于設(shè)計(jì)要求時(shí),補(bǔ)充專業(yè)維護(hù)方面的投入,提升可靠性至達(dá)標(biāo)水準(zhǔn)。
比如某核心設(shè)備,MTBF=100萬(wàn)h與10萬(wàn)h的價(jià)格差a=10%,考慮資金年化通脹率b=3.5%,主航道收益率c=10%,d=10,十年經(jīng)濟(jì)壽命,其可靠性應(yīng)高出e=1.90%,才達(dá)到方案①②平衡的臨界點(diǎn)。
上述臨界點(diǎn)可按下式計(jì)算:
x=(1+b)*(1+c);
e=a*(x-1)*x^d/(x^d-1);
精確計(jì)算也可按月重新輸入bcd,得出月可靠性提升臨界點(diǎn)e。
繼續(xù)上例,假設(shè)該設(shè)備故障服從表2類專業(yè)偶發(fā)類故障,且平均冗余近視為4+1,則第一年設(shè)計(jì)可靠性提升1.74%,五年年均算術(shù)可靠性提升5.949%,十年年均算術(shù)可靠性提升7.080%,是否選擇高可靠方案看風(fēng)險(xiǎn)偏好及增量投資可行性。(相對(duì)于加權(quán)平均可靠性,算術(shù)平均可靠性忽略了賠償期望所帶來(lái)的資金提早投入的資金時(shí)間收益。)
假設(shè)該設(shè)備故障服從表3類專業(yè)偶發(fā)類故障,且平均冗余近視為4+1,則第一年設(shè)計(jì)可靠性提升5.86%,五年年均算術(shù)可靠性提升11.274%,十年年均算術(shù)可靠性提升8.404%,是否選擇高可靠方案看風(fēng)險(xiǎn)偏好及增量投資可行性。
軟件定義與SLA
1)KPI與SLA
與前期介紹的PUE、SUE不同,SLA數(shù)字化的是可靠性、成本、風(fēng)險(xiǎn)及相關(guān)的決策關(guān)系鏈,是其他一切指標(biāo)的基礎(chǔ)性指標(biāo)。
①應(yīng)分別記錄上到系統(tǒng),下到節(jié)點(diǎn)設(shè)備、路由,甚至是零部件的故障次數(shù)時(shí)間間隔、維護(hù)價(jià)格、時(shí)間等對(duì)內(nèi)的成本信息,以便分析和使用。
②應(yīng)注意事故次數(shù)、影響范圍、賠償金額、賠償面積等SLA執(zhí)行數(shù)據(jù)的收集。
③應(yīng)注意SLA設(shè)計(jì)與決策數(shù)據(jù)的收集。
④應(yīng)注意跨數(shù)據(jù)中心數(shù)值的收集與記錄。
①SLA的分析在設(shè)計(jì)階段,主要是關(guān)注其全行業(yè)或者某個(gè)垂直客戶領(lǐng)域的平均參考水平,及其對(duì)銷售、架構(gòu)及設(shè)備可靠性的約束,對(duì)成本、收益及風(fēng)險(xiǎn)在建設(shè)、銷售兩端的權(quán)衡;
②在運(yùn)行階段對(duì)SLA的分析,主要是對(duì)設(shè)備及系統(tǒng)全壽命周期管控及更替的合理性進(jìn)行評(píng)價(jià)。對(duì)基于其他KPI的優(yōu)化,進(jìn)行所涉的評(píng)價(jià)與優(yōu)化;
③應(yīng)關(guān)注終端市場(chǎng)的潛移默化的變化,并進(jìn)行相關(guān)的投入與改造,以便經(jīng)濟(jì)的前提下優(yōu)化SLA滿足最新市場(chǎng)需求;
④將復(fù)雜的可靠性、風(fēng)險(xiǎn)、成本、收益等量化,便于軟件定義與系統(tǒng)智能化及智慧化升級(jí)。