国产美女在线精品免费观看_日韩乱码人妻一二三四区别在线_日本欧美成人在线_精品亚洲成a人片在线播放_av伊人国产一区国产二区

加入收藏 設為首頁 聯(lián)系我們 歡迎光臨本網(wǎng)站!

服務熱線 010-63550645

專注于數(shù)據(jù)中心第三方驗證測試服務行為公正、方法科學、結果準確、服務高效

聯(lián)系我們
服務熱線:010-63550645

郵箱:support@zcecs.com

地址:北京市西城區(qū)南濱河路27號貴都國際中心A座1111室

如何減少數(shù)據(jù)中心中最嚴重硬件故障?
來源:未知 發(fā)布時間:2021-03-01 09:42 點擊:

 

硬件故障在大型數(shù)據(jù)中心和云服務基礎設施中非常普遍,這些故障可能導致違反服務水平協(xié)議(SLA)并造成巨大經(jīng)濟損失。

內(nèi)存故障是當今數(shù)據(jù)中心中最嚴重的硬件故障之一,眾所周知,它嚴重影響了系統(tǒng)的可靠性、可用性和可維護性(RAS)。這些故障可能是由超出正常使用范圍的多種因素引起的,包括制造缺陷以及極端的環(huán)境或操作條件。

雖然普遍接受的技術,例如,糾錯碼(ECC)和可糾正錯誤,基于閾值的預測性故障分析(PFA))可克服雙列直插式內(nèi)存模塊(DIMM)的一些可糾正錯誤,但它們具有成本、可靠性、覆蓋范圍和性能方面的影響。

可糾正錯誤數(shù)量的激增可能導致服務器性能下降,甚至導致拒絕服務。此外,ECC和基于閾值的可糾正錯誤的PFA不能幫助克服無法糾正的錯誤,如災難性故障通常導致崩潰。

對于嚴重依賴服務器可靠性、可用性和可維護性的組織,英特爾內(nèi)存故障預測(Intel MFP)是理想的解決方案。對于當今的數(shù)據(jù)中心而言,提前預測未來的內(nèi)存故障已變得至關重要。通過分析歷史數(shù)據(jù)以預測潛在的災難性事件,英特爾®MFP可以在內(nèi)存故障事件發(fā)生之前對其進行預測。

該解決方案具有多項創(chuàng)新和原始功能。它基于歷史數(shù)據(jù)來預測行、列和單元格中的微型故障,并使用低開銷的在線學習方法來提高其預測精度并避免干擾關鍵的計算任務。

這也使Intel MFP能夠為主動內(nèi)存故障管理生成估計的內(nèi)存運行狀況評分,從而使用戶能夠采取相應的措施。英特爾MFP與供應商無關,并且可以與其他數(shù)據(jù)中心管理解決方案(包括英特爾數(shù)據(jù)中心管理器(Intel DCM))一起使用。

 將與內(nèi)存故障相關的服務器崩潰減少40%

在騰訊的一個案例研究中,英特爾MFP算法的初步協(xié)作測試顯示出快速的結果,并將內(nèi)存故障和系統(tǒng)停機時間減少了五倍。合作伙伴還通過在操作系統(tǒng)級別明智地避免出現(xiàn)內(nèi)存故障,直到更換了該內(nèi)存模塊為止,從而擴展了此支持。

在與美團的類似案例研究中,該公司發(fā)現(xiàn)由于內(nèi)存錯誤導致的服務器崩潰減少了40%。該公司通過將Intel MFP集成到其現(xiàn)有數(shù)據(jù)中心管理解決方案中,監(jiān)控了服務器內(nèi)存模塊的運行狀況。通過分析以前由其數(shù)據(jù)中心管理軟件收集的數(shù)據(jù),他們能夠為每個DRAM模塊生成預測分數(shù),然后采取適當?shù)拇胧﹣砭S護其SLA并最大化服務正常運行時間。

借助新功能,英特爾與全球領先的AMI合作,通過其BIOS、BMC和安全解決方案為全球互聯(lián)數(shù)字基礎架構提供電源、管理和保護,并決心將這種支持擴展到整個行業(yè)。

因為捕獲和分析內(nèi)存錯誤需要UEFI和BMC固件之間緊密的聯(lián)系,所以AMI致力于使Intel MFP易于被現(xiàn)有和將來的服務器平臺采用。

捕獲錯誤后,它們將由BIOS記錄,然后某些元數(shù)據(jù)信息將傳遞到BMC固件。然后,BMC固件將獲取此元數(shù)據(jù),并通過Intel MFP引擎運行,以計算內(nèi)存模塊的運行狀況得分。當檢測到新的錯誤時,AMI解決方案將跟蹤每個內(nèi)存模塊的運行狀況評分,并公開結果供系統(tǒng)管理員進行分析。

AMI的默認實現(xiàn)在BUI的Web UI中提供當前的內(nèi)存模塊運行狀況得分信息,并通過遵循DMTF Redfish標準的RESTful API公開相同的內(nèi)存運行狀況得分信息。

RESTful API可輕松與現(xiàn)有數(shù)據(jù)中心管理軟件集成。但是,對于那些不太愿意與自己的軟件集成的數(shù)據(jù)中心,AMI提供了一個稱為AMI Composer的數(shù)據(jù)管理工具,該工具開發(fā)為完全符合Intel Rack Scale Design和DMTF Redfish標準,它將匯總所有信息并通過一個基于Web的儀表板。

 為數(shù)據(jù)中心和云服務提供商帶來的直接好處

當然,在創(chuàng)建機器學習算法時,它實際上永遠不會完成。當前的Intel MFP模型支持在具有Intel Xeon可擴展處理器的平臺上運行的DDR4內(nèi)存模塊,并且Intel繼續(xù)收集有關內(nèi)存錯誤和內(nèi)存模塊故障的更多信息,以改進模型。

此外,當新的內(nèi)存模塊類型引入行業(yè)或?qū)ΜF(xiàn)有技術進行改進時,英特爾®MFP將為它們提供支持。

最重要的是,將對所有更新進行適當?shù)姆治鲆园贛FP模型中,以便在英特爾更新MFP模型時,AMI將為提供給行業(yè)合作伙伴的現(xiàn)有技術提供易于實現(xiàn)的更新。

對于數(shù)據(jù)中心和云服務提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好處顯而易見。改進了數(shù)據(jù)中心SLA。通過主動的內(nèi)存運行狀況評估和增強的內(nèi)存頁面脫機策略,可以降低DIMM故障率。

而且,最重要的是,更高的DIMM性能和可靠性可優(yōu)化工作負載和虛擬機(VM)遷移決策,從而提高效率和靈活性,同時降低總擁有成本。

對于希望在配備AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系統(tǒng)上利用英特爾MFP的公司,建議他們要求其系統(tǒng)制造商將AMI連同用于MegaRAC BMC固件的帶有Intel MFP選件包的AMI和具有英特爾內(nèi)存故障預測功能的AMI一起包括在內(nèi)。適用于Aptio UEFI固件的eModule。


tag標簽:數(shù)據(jù)中心(990)硬件故障(3)
北京中測信通科技發(fā)展有限公司 版權所有
京ICP備15039513號-1
服務熱線:010-63550645 傳真:010-63550645 郵 箱:support@zcecs.com
企業(yè)云:首選線路 備用線路
地址:北京市豐臺區(qū)花鄉(xiāng)高立莊616號新華國際中心D座3層315室
武宁县| 屯门区| 宁强县| 化州市| 克东县| 凭祥市| 当阳市| 库伦旗| 丽水市| 普兰店市| 康保县| 界首市| 隆回县| 阿勒泰市| 尉犁县| 皮山县| 罗江县| 揭西县| 平阴县| 舟山市| 佛坪县| 五华县| 大名县| 鄂伦春自治旗| 寻甸| 凭祥市| 湘阴县| 分宜县| 镇平县| 亚东县| 临城县| 朝阳市| 洮南市| 全椒县| 邹城市| 阳谷县| 汉寿县| 台山市| 长海县| 洛隆县| 张家港市|