<b>本文ppt来自intel研发经理、hadoop committee成员郑锴于10月16日在2016年杭州云栖大会上发表的《海量数据分布式存储--apache hdfs》。</b>
目前,大数据正在迅猛地发展,同时大数据技术本身也在不断地发展和完善,以满足人们日益庞大的数据处理需求。这些需求主要体现以下这六个方面:
第一,大数据要存储和处理的数据量越来越庞大。
第二,人们对处理数据速度的期望越来越高。
第三,存储的场景更复杂和丰富。
第四,存储设备开始变得廉价、读取速度变得更快。
第五,网络带宽越来越高,10gb的网络已经是标配,40gb乃至100gb也将到来。
第六,存储和计算相分离,大数据加速向云端迁移。
到目前为止,在hdfs的存储演化中相继出现了cace缓存支持、hsm多层次存储体系、ec纠删码等等技术,极大地提高了hdfs的性能和安全性。在未来,hdfs将把重点转移到智能存储管理、对象存储和云端存储三大方面上。其中,智能储存管理能提供端到端储存解决方案,完整收集集群储存和数据访问信息,智能感知存储状态变化并作出策略调整;对象存储将使对象变得更为轻量,使其对一些场景更为友好;云端存储则利用统一的hadoop文件系统api和快速弹性的hdfs缓存层使存储更为便利。相信随着apache hdfs日益发展,海量数据分布式存储将变得更加便捷快速。
