天天看點

Impala 需要的HDFS參數簡析

安裝Impala時需要調整幾個HDFS參數,以達到最佳性能:

1.dfs.client.read.shortcircuit(必選):

另外,還有另外幾個相關的參數:dfs.client.read.shortcircuit.streams.cache.size和dfs.client.read.shortcircuit.streams.cache.expiry.ms以及dfs.client.read.shortcircuit.skip.checksum和dfs.client.read.shortcircuit.buffer.size.其中,在用戶端讀取前會建立一個FileinputStreamCache,就是由前兩個參數控制大小和過期時間的,其中key就是Datanode+block;後兩個參數就是決定是否跳過校驗以及校驗的塊大小.

2.dfs.datanode.hdfs-blocks-metadata.enabled(可選)

當enable這個特性後,用戶端可以call getFileBlockStorageLocations這個API來擷取Block(BLOCKLOCATION)與disk(VOLUMNS)的映射:

首先并行(并行度和逾時時間通過dfs.client.file-block-storage-locations.num-threads,dfs.client.file-block-storage-locations.timeout決定)對Datanode進行RPC CALL擷取所有副本的HdfsBlockMetadata,之後利用該資訊建構映射并傳回.

本文轉自MIKE老畢 51CTO部落格,原文連結:http://blog.51cto.com/boylook/1308463,如需轉載請自行聯系原作者

繼續閱讀