spark-1.6.1安裝編譯&&sparksql操作hive

2016-05-31 09:09:25

maven：3.3.9

jdk:java version "1.8.0_51"

spark:spark-1.6.1.tgz

scala:2.11.7

如果scala版本是2.11.x，執行如下腳本

./dev/change-scala-version.sh 2.11

spark預設情況下用scala的2.10.5編譯

編譯指令如下：

mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.6.0 -Phive -Phive-thriftserver -Dscala-2.11 -DskipTests clean package

紅色部分為spark-sql連結hive的所需要的依賴，以及指定的scala的版本

注意：hive-site.xml檔案需要放到$SPARK_HOME/conf目錄下，否則找不到表

運用spark-sql通路hive

package com.infra.codelab.spark.hive
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
object HiveTest {
  val conf = new SparkConf()
  val sc = new SparkContext(conf)
  def main(args: Array[String]): Unit = {
    val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
    sqlContext.sql("SELECT line FROM filecontent ").collect().foreach(println)
  }
}

送出任務：

spark-submit --class com.infra.codelab.spark.hive.HiveTest  --master spark://localhost:7077 /home/xiaobin/test/spark/wordcount-0.0.1-SNAPSHOT.jar

export SPARK_CLASSPATH=$SPARK_CLASSPATH:/home/xiaobin/soft/apache-hive-0.14.0-bin/lib/mysql-connector-java-5.1.35.jar

spark-sql --master spark://xiaobin:7077

spark-sql> select count(*) from filecontent;
483                                                          
Time taken: 3.628 seconds, Fetched 1 row(s)

spark-1.6.1安裝編譯&&sparksql操作hive

繼續閱讀

pyspark學習(一)—pyspark的安裝與基礎文法一 Pysaprk的安裝二：pyspark的簡單文法END

Android apk如何反root 手機安裝？

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

GSL學習之一：下載下傳并編譯GSL庫一、下載下傳GSL庫并biany二、運作GSL庫自帶的例子

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

spark-1.6.1安裝編譯&amp;&amp;sparksql操作hive

繼續閱讀

spark-1.6.1安裝編譯&&sparksql操作hive