天天看點

Spark筆試

1.Spark 的四大元件下面哪個不是 (D )

A.Spark Streaming B Mlib

C Graphx D Spark R

2.下面哪個端口不是 spark 自帶服務的端口 (C )

A.8080 B.4040 C.8090 D.18080

3.spark 1.4 版本的最大變化 (B )

A spark sql Release 版本 B 引入 Spark R

C DataFrame D支援動态資源配置設定

4.Spark Job 預設的排程模式 (A )

A FIFO B FAIR

C 無 D 運作時指定

5.哪個不是本地模式運作的個條件 ( D)

A spark.localExecution.enabled=true B 顯式指定本地運作 C finalStage 無父 Stage D partition預設值

6.下面哪個不是 RDD 的特點 (C )

A. 可分區 B 可序列化 C 可修改 D 可持久化

7.關于廣播變量,下面哪個是錯誤的 (D )

A 任何函數調用 B 是隻讀的 C 存儲在各個節點 D 存儲在磁盤或 HDFS

8.關于累加器,下面哪個是錯誤的 (D )

A 支援加法 B 支援數值類型

C 可并行 D 不支援自定義類型

9.Spark 支援的分布式部署方式中哪個是錯誤的 (D )

A standalone B spark on mesos

C spark on YARN D Spark on local

10.Stage 的 Task 的數量由什麼決定 (A )

A Partition B Job C Stage D TaskScheduler

11.下面哪個操作是窄依賴 (B )

A join B filter

C group D sort

12.下面哪個操作肯定是寬依賴 (C )

A map B flatMap

C reduceByKey D sample

13.spark 的 master 和 worker 通過什麼方式進行通信的? (D )

A http B nio C netty D Akka

14 預設的存儲級别 (A )

A MEMORY_ONLY B MEMORY_ONLY_SER

C MEMORY_AND_DISK D MEMORY_AND_DISK_SER

15 spark.deploy.recoveryMode 不支援那種 (D )

A.ZooKeeper B. FileSystem

D NONE D Hadoop

16.下列哪個不是 RDD 的緩存方法 (C )

A persist() B Cache()

C Memory()

17.Task 運作在下來哪裡個選項中 Executor 上的工作單元 (C )

A Driver program B. spark master

C.worker node D Cluster manager

18.hive 的中繼資料存儲在 derby 和 MySQL 中有什麼差別 (B )

A.沒差別 B.多會話 C.支援網絡環境 D資料庫的差別

19.DataFrame 和 RDD 最大的差別 (B )

A.科學統計支援 B.多了 schema

C.存儲方式不一樣 D.外部資料源支援

20.Master 的 ElectedLeader 事件後做了哪些操作 (D )

A. 通知 driver B.通知 worker

C.注冊 application D.直接 ALIVE

答案:

DCBAD CDDDA

BCDAD CCBBD

上一篇: Spark面試
下一篇: Shark

繼續閱讀