天天看点

关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了

Jindo 的由来

EMR Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 原是内部的研发代号,取自筋斗(云)的谐音,EMR Jindo 在开源基础上做了大量优化和扩展,深度集成和连接了众多阿里云基础服务。阿里云 EMR (E-MapReduce) 在 TPC 官方提交的 TPCDS 成绩,也是使用 Jindo 提交的。

以上摘自

【JindoFS概述:云原生的大数据计算存储分离方案】

阿里巴巴计算平台事业部 EMR 技术专家诚历向我们阐述了 Jindo FS的前世今生。

JindoFS 介绍

JindoFS 主要包含两个服务组件:Namespace的服务以及Storage 服务,Namespace服务主要JindoFS 元数据管理以及 Storage 服务的管理, Storage 服务主要负责 用户数据的管理包含本地数据的管理和OSS上数据的管理, JindoFS是云原生的文件系统,可以提供本地存储的性能以及OSS的超大容量。

【JindoFS解析 - 云上大数据高性能数据湖存储方案】

阿里巴巴计算平台事业部EMR团队技术专家辰石在本文中介绍了EMR Jindo 的技术存储分离方案

多样的存储选择

在阿里云上,大数据存储主要有三种选择,分别为Hadoop HDFS、Alibaba HDFS和OSS。Hadoop HDFS有三种存储方式,EBS云盘存储数据可靠,但是后台有多个数据副本,因此成本较高,同时通过网络获取数据性能较低;D1本地磁盘以及I1/I2本地词盘性能比较高,成本也比较低,但是数据容易丢失,并且运维成本较高。另外一种选择是Alibaba HDFS,这种方式数据可靠,成本中等,并且数据全部通过网络传输,没有本地计算。OSS标准存储经过阿里巴巴的改造和优化之后可以直接在Hadoop中进行读写,这就是所谓的NativeOSS,NativeOSS存储数据可靠,成本较低,并且通用性比较好,但是性能比较低。因此,进一步在NativeOSS上进行了强化,实现了JindoFS,JindoFS做到了数据可靠,成本较低,性能高并且通用性较好,但是需要额外的存储成本。

【助力云上开源生态 - 阿里云开源大数据平台的发展】

在2019杭州云栖大会大数据生态专场上,阿里巴巴高级产品专家雷飙为大家分享了阿里云的大数据生态发展现状。

EMR JindoFS背景

计算存储分离已经成为云计算的一种发展趋势。在计算存储分离之前,普遍采用的是传统的计算存储相互融合的架构(下图左侧),但是这种架构存在一定的问题,比如在集群扩容的时候会面临计算能力和存储能力相互不匹配的问题。用户在某些情况下只需要扩容计算能力或者存储能力,而传统的融合架构不能满足用户的这种需求,进行单独的扩充计算或者存储能力;其次在缩容的时候可能会遇到人工干预,人工干预完后需要保证数据在多个节点中同步,而当有多个副本需要同步时候,可能会造成的数据丢失。而计算存储分离架构(下图右侧)则可以很好的解决这些问题,使得用户只需要关心整个集群的计算能力。

【JindoFS: 云上大数据的高性能数据湖存储方案】

在2019杭州云栖大会大数据生态专场,阿里巴巴计算平台事业部EMR团队技术专家辰石向大家分享了云上大数据的高性能数据湖存储方案JindoFS的产生背景、架构

JindoFS - 分层存储

JindoFS 无论是Cache 模式还是Block 模式都提供数据本地备份来加速业务数据的访问,而数据的可靠性和可用性主要由后端存储OSS 提供,JindoFS 分层存储中冷数据存放主要依赖OSS 提供存储类型来提供,OSS 可以提供存储类型分为三种类型:标准存储类型,低频访问存储类型,归档存储类型。

【JindoFS - 分层存储】

阿里巴巴计算平台事业部EMR团队技术专家辰山介绍了这一功能。 JindoFS 存储内部是通过分层存储来降低这部分冷数据的存储成本,提高热数据的访问性能。

Spark Relational Cache特点

阿里云EMR是一个开源大数据解决方案,目前EMR上面已经集成了很多开源组件,并且组件数量也在不断的增加中。EMR下层可以访问各种各样的存储,比如对象存储OSS、集群内部自建的HDFS以及流式数据等。用户可以利用EMR处理海量数据和进行快速分析,也能够支持用户在上面做机器学习以及数据清洗等工作。EMR希望能够支撑非常大的业务数据量,同时也希望能够在数据量不断增长的时候,能够通过集群扩容实现快速数据分析。

阿里巴巴的EMR Spark对于1T数据的构建时间只需要1小时。

【Spark Relational Cache实现亚秒级响应的交互式分析】

在2019杭州云栖大会大数据生态专场上,阿里巴巴技术专家健身为大家分享了阿里云EMR的Spark Relational Cache实现亚秒级响应的交互式分析。

EMR-Jindo:云原生高效数据分析引擎

下图展示了TPC-DS的基准测试报告,可以发现在2019年3月份10TB的测试中,性能指标得分是182万左右,成本是0.31 USD;而2019年十月份同样的测试性能指标得分已经变成526万,成本下降到0.53 CNY,也就是说经过半年左右性能提升了2.9倍,成本缩减到原来的四分之一。同时阿里巴巴还成为了首个提交TPC-DS测试100TB测试报告的厂商。这些成绩的背后是EMR-Jindo引擎的支持。

【EMR 打造高效云原生数据分析引擎】

在2019杭州云栖大会大数据技术专场,阿里云阿里巴巴计算平台事业部 EMR 技术专家辛庸向大家分享了如何基于开源体系如何打造云上数据分析平台E-MarReduce(EMR)、EMR-Jindo 引擎背后的相关技术以及以 EMR-Jindo 为核心的云上大数据架构方案。

首个通过TPC认证的公共云产品

今年3月份,E-MapReduce成为全球首个通过TPC认证的公共云产品。2019年9月,E-MapReduce新版本在TPC-DS 10TB benchmark中再次勇夺第一,性能达到5,261,414 QphDS,比之前最好成绩提升19%,并且将单位查询成本降低38%。同时,E-MapReduce首次将TPC-DS数据集规模拓展至100TB,性能达到14,861,137 QphDS,100TB的数据规模是竞争对手产品最大处理能力的10倍。

以上摘自【

阿里云大数据+AI技术沙龙上海站回顾 | ​揭秘TPC-DS 榜单第一名背后的强大引擎

EMR 团队在国内运营最大的 Spark 社区,本次分享,揭秘TPC-DS 榜单第一名背后的强大引擎,探索Pyboot如何打通大数据生态,一同学习业内最新的存储方案和机器学习平台。

EMR速度再破世界纪录

4月26日,大数据领域权威竞赛TPC-DS公布了最新结果,阿里云作为全球唯一入选的云计算公司获得第一。值得一提的是,去年阿里云EMR首次打破该竞赛纪录,成为全球首个通过TPC认证的公共云产品。今年在这一基础上,EMR的计算速度提升了2.2倍,连续两年打破了这项大数据领域最难竞赛的世界纪录。

【阿里云EMR计算速度提升2.2倍 连续两年打破大数据领域最难竞赛世界纪录!】

EMR的计算速度提升了2.2倍,性能指标(QphDS)首次超过一千万分,是友商的商业大数据产品3.5倍。同时,E-MapReduce继续保持数据处理能力的规模优势,100TB的数据规模是竞争对手产品最大处理能力的10倍。

JindoFS SDK 全面开放使用

JindoFS SDK作为JindoFS的客户端,提供了三大能力:1. 面向Hadoop/Spark生态提供访问OSS对象存储的封装;2. 访问JindoFS OSS缓存加速服务;3. 访问JindoFS块模式文件系统。本文主要介绍如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。值得一提的是,此前JindoFS SDK 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

【重磅:阿里云 JindoFS SDK 全面开放使用,OSS 文件各项操作性能得到大幅提升】

阿里巴巴计算平台事业部 EMR 高级工程师抚月介绍了如何使用JindoFS SDK来访问OSS对象存储,以及使用它来提升我们操作OSS文件的性能。

阿里云 Jindo DistCp 全面开放使用

Jindo DistCp是阿里云E-MapReduce团队开发的大规模集群内部和集群之间分布式文件拷贝的工具。重点优化hdfs到oss的数据拷贝,通过定制化CopyCommitter,实现No-Rename拷贝,并保证数据拷贝落地的一致性。功能全量对齐S3 DistCp和HDFS DistCp,性能较HDFS DistCp有较大提升,目标提供高效、稳定、安全的数据拷贝工具。

【再出王牌:阿里云 Jindo DistCp 全面开放使用,成为阿里云数据迁移利器】

阿里巴巴计算平台事业部 EMR 开发工程师扬礼向我们介绍如何使用Jindo DistCp来进行基本文件拷贝,以及如何在不同场景下提高数据拷贝性能。值得一提的是,此前 Jindo DistCp 仅限于E-MapReduce产品内部使用,此次全方位面向整个阿里云OSS/HDFS用户放开,并提供官方维护和支持技术,欢迎广大用户集成和使用。

JindoFS系列直播

JindoFS系列直播【Hadoop Job committer 的演化和发展】 视频链接

Job Committer是Mapreduce/Spark等分布式计算框架的重要组成部分,为分布式任务的写入提供一致性的保证,阿里云智能EMR团队高级技术专家司麟本次分享主要介绍Job Committer的演进历史,以及社区和EMR在S3/OSS等云存储上的最新进展。

JindoFS系列直播【关于 JindoFS 最新的 OTS 方案】

阿里巴巴计算平台事业部EMR团队技术专家辰石,在直播中向我们介绍JindoFS的元数据的后端演化。包括JindoFS的架构以及使用场景、JindoFS 元数据的不同的后端支持,以及JindoFS 在云上环境如何支持 OTS 作为元数据后端。

JindoFS系列直播【存储计算分离场景的计算适应优化】

阿里云EMR技术专家健身,会在本次分享中介绍云上大数据处理的存储计算分离特征,分析传统大数据处理中数据本地化与存储计算分离场景的区别,以及在存储计算分离场景中阿里云EMR的相关优化。

JindoFS系列直播【大规模文件元数据下的耗时操作优化】

阿里云EMR技术专家诚历,会在本次分享中介绍大数据生态中常见的元数据服务部署形态,并分析大规模文件元数据下在生产环境中可能遇到的问题,以及针对这些问题如何进行优化和调整。

JindoFS系列直播【JindoFS Fuse 支持】

本次直播主要介绍如何利用FUSE的POSIX文件系统接口,像本地磁盘一样轻松使用大数据存储系统, 为云上AI场景提供了高效的数据访问手段。嘉宾:阿里巴巴计算平台事业部 EMR 高级工程师苏昆辉,花名抚月。

JindoFS系列直播【JindoFS 存储策略和读写优化】

本次分享主要介绍数据读写在计算存储分离的场景下所面临的常见问题以及相关的优化手段,并结合应用场景介绍对数据缓存加速的相关技术和策略。嘉宾:姚舜扬,花名辰山,阿里巴巴计算平台事业部 EMR 高级开发工程师,目前从事大数据存储方面的开发和优化工作。

JindoFS系列直播【Hadoop 小文件/冷文件分析】

庞大的小文件和冷文件数量会对HDFS的性能产生不利影响,严重时甚至影响业务稳定性,这个主题将介绍对大容量HDFS进行小文件和冷文件分析的方法,并基于分析结果可以采取哪些处理措施。嘉宾:郭聪,花名析源,阿里云计算平台事业部技术专家。目前主要从事大数据领域APM产品的研发工作。

相关文档

JindoFS使用文档

https://help.aliyun.com/document_detail/141542.html

JindoFS介绍

https://help.aliyun.com/document_detail/141534.html https://help.aliyun.com/document_detail/141535.html

功能说明

使用JindoFS SDK免密功能 Jindo DistCp使用说明 E-MapReduce JindoCube使用说明

一张图看懂JindoFS

关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了

Apache Spark技术交流社区公众号,微信扫一扫关注

关于云原生分布式计算和存储引擎JindoFS,看这一篇就够了

继续阅读