天天看點

百度使用自主研發系統工具hdoctor 使SATA盤返修率低于SAS盤

據了解,百度近三年來一直使用其主導研發的系統工具hdoctor。該創新工具的應用,使SATA 硬碟的故障返修率低于比其成本及可靠性更高的SAS硬碟,有效地解決了在大資料時代,大規模大容量SATA硬碟應用背景下的高故障率、低運維效率和存儲成本控制等難題,并對大幅降低雲存儲購置成本奠定堅實基礎。

大資料促硬碟故障問題凸顯

如今,資料量迅速膨脹,據IDC統計,2012年全球資料總量已達到2.8ZB,而到2020年,預計将達到40ZB,相當于地球上所有海灘沙粒數量的57倍,地球上人均将擁有5247GB資料。海量資料讓全球面臨着資料存儲方面的嚴峻挑戰,這裡面既有技術上的難題,也有來自成本方面的壓力。而硬碟作為資料中心存儲資料的核心部件之一,其返修率高、成本昂貴成為衆多挑戰中的主要難題。

據統計,在資料中心中,硬碟相關的故障占全部硬體故障的85%以上。随着大資料時代的到來,伺服器數量大幅度增長,更多的存儲需求、更低成本硬碟的使用,以及高溫、高存儲密度等技術的應用,硬碟故障及報廢規模呈明顯增加趨勢。這對業務穩定、存儲成本和運維效率都造成了嚴重的影響。如何降低返修率一直困擾業界。

因為存儲着上百PB資料,百度——這家全球最大的中文搜尋引擎公司擁有着數百萬塊硬碟,解決返修率問題極其迫切。也正是在這樣的背景下,百度于三年前就自主創新,主導研發了系統工具hdoctor。

百度hdoctor五次元融合創新

hdoctor 最主要的成果是讓SATA硬碟的返修率低于SAS硬碟。

衆所周知,SATA硬碟的返修率高出SAS硬碟近40%以上,拿業界某知名硬碟廠商最新産品為例:企業級10k SAS硬碟的年返修率(AFR)是0.44%;近線級的7.2k SATA 硬碟的AFR為0.63%。而百度使用該工具後,不僅減少了60%的SATA硬碟返修率,實作了全部硬碟故障處理及報廢擦除的全流程自動化,還通過與存儲系統的排程管理內建,提前處理潛在故障的硬碟,大幅縮小了故障對業務影響,有效降低運維成本,及人力、物力投入。可以說,百度用更低成本得到了更高的品質保證。

之是以能實作如上成果,主要得益于hdoctor從五個次元融合創新:

第一,硬碟故障檢測。hdoctor 通過日志增量監控,整合系統設定、報錯類型、硬碟運作狀态等檢查環節,可在10秒内監控99% 的故障,覆寫全部的機型;經過多次驗證,準确度與硬碟廠商采用的硬體檢測分析方法(FA)相當。

第二,硬碟故障修複。能在60秒内修複SATA硬碟60%的故障,包括潛在故障扇區修複、檔案系統壞塊屏蔽、硬碟及陣列狀态設定校正、硬碟狀态未就緒或逾時的處理、資料/硬體故障排除、盤符前後漂移複位等常見的運維故障處理。而在未使用hdoctor的情況下,因業務穩定性要求,一旦出現報錯,業界的通常做法是更換硬碟,這使得維護代價十分高昂。

第三,硬碟故障預警。基于數十萬片硬碟近30個月的硬碟運作及故障大資料,使用機器學習技術,挖掘、分析海量資料,打造了可自動疊代的故障預測系統,支援全部廠商所有型号的 SATA 硬碟故障預測,準确率超過98%;同時與系統排程內建,能夠提前避免故障對業務造成不良影響,有效降低雲存儲系統的平均故障修複時間(MTTR)。

第四,硬碟報廢擦除。終捍衛雲端資料安全,內建三種國際認證的安全擦除方案,可在JBOD、RAID環境下,快速、高效、安全擦除包括SATA、SAS、SSD、Flash在内的各種存儲媒體。

第五,自動運維支援。hdoctor提供所有類型硬碟的故障檢測、修複、上線、下線、報修、結單檢測等全方位的自動化運維API,同時定期維護和校正硬碟的狀态運作資訊,而且工具本身的運作機制也是自回報和自維護的。

據了解,hdoctor已曆經了三個年頭。基于每月積累的故障記錄,以及與硬碟相關的預警、負載、功耗、性能、溫度等數十億級别的大資料,該工具不斷地疊代更新,在降低故障率,提升運維效率和雲存儲系統可靠性的同時,有效助力硬碟資源排程、功耗管理、存儲分級等軟硬體協同工作,大規模降低雲存儲營運成本。

業内分析人士指出,百度hdoctor的創新成果具有極為重要的産業意義。它解決了大規模大容量SATA硬碟應用背景下的高故障率、低運維效率和存儲成本控制等難題,為業界實作更低成本、更高品質資料存儲起到示範與引領作用;更具未來發展意義的是,該工具的使用對未來将雲盤、歸檔盤等低成本存儲媒體引入資料中心奠定了基礎,能夠使雲存儲購置成本大幅降低。百度的創新技術,打破了雲計算和大資料産業發展中的一大阻礙,将有效推動産業更高速成長。

繼續閱讀