坑死我算了，hive君

2023-03-08 00:55:14

一堆hive配置（hive-site.xml）：

<name>datanucleus.schema.autoCreateTables</name>

</property>

<name>datanucleus.autoCreateColumns</name>

<description>不存在時，自動建立Hive中繼資料列</description>

</property>

<name>datanucleus.fixedDatastore</name>

<value>false</value>

</property>

<name>datanucleus.autoStartMechanism</name>

<value>SchemaTable</value>

</property>

<name>javax.jdo.option.ConnectionURL</name>

<value>jdbc:mysql://172.16.100.35:3306/hive?createDatabaseIfNotExist=true&autoReconnect=true&ampuseSSL=false</value>

<description>JDBC connect string for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionDriverName</name>

<value>com.mysql.jdbc.Driver</value>

<description>Driver class name for a JDBC metastore</description>

</property>

<name>javax.jdo.option.ConnectionUserName</name>

<description>username to use against metastore database</description>

</property>

<name>javax.jdo.option.ConnectionPassword</name>

<description>password to use against metastore database</description>

</property>

<name>hive.metastore.warehouse.dir</name>

<value>/warehouse/hive</value>

<description>location of default database for the warehouse</description>

</property>

<name>hive.execution.engine</name>

<value>spark</value>

</property>

<name>hive.enable.spark.execution.engine</name>

</property>

<name>spark.home</name>

<value>/work/poa/spark-1.6.2-bin-2.6.0</value>

</property>

<name>spark.master</name>

<value>yarn-cluster</value>

</property>

<name>hive.metastore.local</name>

<value>false</value>

</property>

<name>hive.metastore.uris</name>

<value>thrift://HZTelSpark-008:9083,HZTelSpark-009:9083</value>

<description>Thrift URI for the remote metastore. Used by metastore client to connect to remote metastore.</description>

</property>

<name>hive.server2.support.dynamic.service.discovery</name>

</property>

<name>hive.server2.zookeeper.namespace</name>

<value>hiveserver2_zk</value>

</property>

<name>hive.zookeeper.quorum</name>

<value>HZTelSpark-001:2181,HZTelSpark-002:2181,HZTelSpark-003:2181</value>

</property>

<name>hive.zookeeper.client.port</name>

</property>

<name>hive.server2.thrift.bind.host</name>

</property>

<name>hive.server2.thrift.port</name>

</property>

<name>spark.executor.memory</name>

</property>

<name>spark.executor.cores</name>

</property>

<name>spark.executor.instances</name>

</property>

<name>spark.serializer</name>

<value>org.apache.spark.serializer.KryoSerializer</value>

</property>

</configuration>

配置比較繁雜，beeLine竟然不自帶，

編譯hive，不知道是被共産法西斯牆了還是怎麼地，一直編譯不通過，

官網預編譯版的spark跟hive不相容，需要重新編譯spark,去除hive相關參數，

同時要保證parquet版本跟hive一緻，否則hive使用parquet檔案會報錯，

hive的資料類型跟parquet不相容導緻表加載和查詢過程中各種報錯，使用

hive on spark做互動式查詢，速度也沒有想象那麼快，hive為

presto提供中繼資料服務，一連串的中繼資料管理和優化也是個大問題。

坑死我算了，hive君

繼續閱讀

Hbase自帶工具

分布式Apache ZooKeeper-3.4.6叢集安裝

hive 與 sql

HBase學習之路(八)：HBase協處理器+Hadoop的表操作行為日志監控案例實戰

spark(十)RDD的groupByKey和reduceByKey實作

Spark性能調優之RDD持久化

docker安裝cloudera版本的hadoop

pyspark中ip地理位置統計案例代碼實作

Hadoop開源大資料平台逐漸淘汰了嗎？Hadoop是一個開源的大資料處理架構，它在過去的幾年中一直是大資料領域中最流行

介紹大資料YARN容器。YARN是Hadoop生态系統中的關鍵元件，也是實作大資料處理任務管理和排程的重要工具。通過将資

spark-shell

HIVE 基本指令hive筆記：

Cloudera Manager安裝Kafka叢集

HIve安裝踩坑手冊一、安裝環境二、安裝Hadoop三、安裝hive四、錯誤記錄

spark為什麼比hadoop快