天天看点

Impala 需要的HDFS参数简析

安装Impala时需要调整几个HDFS参数,以达到最佳性能:

1.dfs.client.read.shortcircuit(必选):

另外,还有另外几个相关的参数:dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms以及dfs.client.read.shortcircuit.skip.checksum和dfs.client.read.shortcircuit.buffer.size.其中,在客户端读取前会创建一个FileinputStreamCache,就是由前两个参数控制大小和过期时间的,其中key就是Datanode+block;后两个参数就是决定是否跳过校验以及校验的块大小.

2.dfs.datanode.hdfs-blocks-metadata.enabled(可选)

当enable这个特性后,客户端可以call getFileBlockStorageLocations这个API来获取Block(BLOCKLOCATION)与disk(VOLUMNS)的映射:

首先并行(并行度和超时时间通过dfs.client.file-block-storage-locations.num-threads,dfs.client.file-block-storage-locations.timeout决定)对Datanode进行RPC CALL获取所有副本的HdfsBlockMetadata,之后利用该信息构建映射并返回.

本文转自MIKE老毕 51CTO博客,原文链接:http://blog.51cto.com/boylook/1308463,如需转载请自行联系原作者

继续阅读