<b>本文ppt來自intel研發經理、hadoop committee成員鄭锴于10月16日在2016年杭州雲栖大會上發表的《海量資料分布式存儲--apache hdfs》。</b>
目前,大資料正在迅猛地發展,同時大資料技術本身也在不斷地發展和完善,以滿足人們日益龐大的資料處理需求。這些需求主要展現以下這六個方面:
第一,大資料要存儲和處理的資料量越來越龐大。
第二,人們對處理資料速度的期望越來越高。
第三,存儲的場景更複雜和豐富。
第四,儲存設備開始變得廉價、讀取速度變得更快。
第五,網絡帶寬越來越高,10gb的網絡已經是标配,40gb乃至100gb也将到來。
第六,存儲和計算相分離,大資料加速向雲端遷移。
到目前為止,在hdfs的存儲演化中相繼出現了cace緩存支援、hsm多層次存儲體系、ec糾删碼等等技術,極大地提高了hdfs的性能和安全性。在未來,hdfs将把重點轉移到智能存儲管理、對象存儲和雲端存儲三大方面上。其中,智能儲存管理能提供端到端儲存解決方案,完整收集叢集儲存和資料通路資訊,智能感覺存儲狀态變化并作出政策調整;對象存儲将使對象變得更為輕量,使其對一些場景更為友好;雲端存儲則利用統一的hadoop檔案系統api和快速彈性的hdfs緩存層使存儲更為便利。相信随着apache hdfs日益發展,海量資料分布式存儲将變得更加便捷快速。
