X-Pack Spark 通路OSS

2019-10-27 23:50:00

簡介

對象存儲服務（Object Storage Service，OSS）

是一種海量、安全、低成本、高可靠的雲存儲服務，适合存放任意類型的檔案。容量和處理能力彈性擴充，多種存儲類型供選擇，全面優化存儲成本。

本文主要介紹通過Spark操作OSS資料的常見方式,代碼以Scala為例。本文的代碼可以通過“

資料工作台

”送出。

前置條件

OSS已經建立bucket，假設名稱為：test_spark
已建立具備讀寫OSS bucket:test_spark權限的使用者。假設使用者名為test_oss，通路OSS的AccessKeyID和AccessKeySecret分别為：accessId，accessKey。
OSS的路徑格式為：oss://${AccessKeyID}:${AccessKeySecret}@${bucketName}.${endPoint}/${ossKeyPath}。例如：oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/spark-table/test.csv

使用Spark讀寫OSS檔案樣例

假設有如下内容的文本資料已經存在OSS中，路徑為：oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/spark-table/test.csv ，内容為：

101, name_101, 0.52
102, name_102, 0.78
103, name_103, 0.76
104, name_104, 0.78
105, name_105, 0.02
106, name_106, 0.29
107, name_107, 0.63
108, name_108, 0.20
109, name_109, 0.07
110, name_110, 0.33

通過Spark讀取檔案，常用兩種方法

一、使用DataFrame 讀取，執行個體代碼如下：

val conf = new SparkConf().setAppName("spark sql test")
val sparkSession = SparkSession
      .builder()
      .config(conf)
      .enableHiveSupport()
      .getOrCreate()
val ossCsvPath = s"oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/spark-table/test.csv"
//讀取test.csv并生産DataFrame
val fileDF = sparkSession.read.csv(ossCsvPath)
//列印fileDF内容
fileDF.show()
//也可以把fileDF 注冊是Spark表
fileDF.createOrReplaceTempView(“test_table")
sparkSession.sql("select * from test_table").show()

二、建立Spark Sql表指向test.csv，執行個體代碼如下：

val sql =
      s"""create table test_table(
         |      id          int,
         |      name        string,
         |      value       float
         |      ) row format delimited fields terminated by ','
         |      location 'oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/spark-table/'
         |      """.stripMargin
//建立spark 表
sparkSession.sql(sql)
//查詢表資料
sparkSession.sql("select * from test_table").show()

通過Spark寫檔案，常用DataFrame寫檔案。

示例代碼如下：

val conf = new SparkConf().setAppName("spark sql test")
val sparkSession = SparkSession
      .builder()
      .config(conf)
      .enableHiveSupport()
      .getOrCreate()
val ossCsvPath = s"oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/spark-table/test.csv"
//讀取test.csv并生産DataFrame
val fileDF = sparkSession.read.csv(ossCsvPath)
//列印fileDF内容
fileDF.show()
val writeOssParquetPath = "oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/parquet-table/"
//寫parquet格式檔案
fileDF.write.parquet(writeOssParquetPath)
val writeCsvParquetPath = "oss://accessId:accessKey@test_spark.oss-cn-shenzhen-internal.aliyuncs.com/user/csv-table/"
//寫csv格式檔案
fileDF.write.csv(writeCsvParquetPath)

小結

本文給出Spark操作OSS資料的基本用法，更多用法會陸續推出。

本例代碼可參考： SparkOnOSS.scala
更多樣例代碼可參考： Spark樣例代碼

X-Pack Spark 通路OSS

簡介

前置條件

使用Spark讀寫OSS檔案樣例

通過Spark讀取檔案，常用兩種方法

通過Spark寫檔案，常用DataFrame寫檔案。

小結

繼續閱讀

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

轉詳解C#資料庫存取圖檔三大方式

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

Oracle的基本操作

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

SQL優化SQL語句優化的目的

JAVA高效程式設計指南

關于SQL語言

SQL語言基礎：常用的資料查詢語句

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

neo4j之cypher使用文檔

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

sqlServer根據經緯查距離