大資料基礎習題

填空：

1.分布式檔案系統在實體結構上是由計算機叢集中的多個節點構成的，這些節點分為兩類：一類叫__________；另一類叫aaS。

5.NoSQL資料庫采用的是__非關系資料__模型。

6.MapReduce1.0采用__Master/Slave 架構設計，包括一個JobTracker和若幹TaskTracker

7.RDD是___彈性分布式____資料集。是分布式記憶體的一個抽象概念，提供了一種高度受限的共享記憶體模型。

8.階段/Stage是作業排程的基本機關。

9.colFamily指的是__列族。

10.與分布式對應的方式是____集中式_.。

11.大規模資料集的處理包括分布式存儲和__分布式計算_____兩個核心環節。

12.MapReduce的核心思想可以用___分而治之____來描述。

13.寫出大資料特征的4個V:資料量大volume，資料類型繁多 variety，處理速度快velocity，價值密度低value

14.NoSQL的四大類型為鍵值資料庫、列族資料庫、文檔資料庫、圖資料庫

15.在HDFS中，名稱節點負責管理分布式檔案系統的命名空間，儲存了兩個核心的資料結構，即_____FsImage_____和EditLog。

16.BigTable是一個分布式存儲系統，利用谷歌提出的___MapReduce_______分布式并行計算模型來處理海量資料。

17.Shuffle過程分為_Map___端的操作和Reduce端的操作。

18.資料總體上可以分為___流資料______和____靜态資料_____。答案：流資料，靜态資料

19.UMP系統功能為_容災_、讀寫分離、資源管理、資源排程、資源隔離和資料安全。

20.目前Spark支援三種不同類型的部署方式，包括__standalone____、Spark on Mesos、Spark on YARN。答案：standalone、Spark on Mesos、Spark on YARN。

21.RDS英文全稱為__Relational Database Service__。

22.MapReduce的核心函數：Map和___Reduce___。

23.MapReduce整個工作流程的核心環節是__Shuffle__過程。

24.Spark使用____DAG_____執行引擎以支援循環資料流與記憶體計算.

25.HBase隻有一個索引——行鍵____，通過巧妙的設計，HBase中的所有通路方法，或者通過行健通路，或者通過行健掃描，進而使得整個系統不會慢下來。

26.Scala是一門現代的多範式程式設計語言，平滑的內建了____面向對象_____和____函數式_____的特性，旨在以簡練優雅的方式來表達常用程式設計模式。

27.RDD中的依賴關系分為____窄依賴_____與___寬依賴______。答案：窄依賴，寬依賴

28.YARN體系結構中包含了三個元件：ResourceManager、___ApplicationMaster

____、NodeManager

29.寫出大資料特征的4個V？

資料量大volume，資料類型繁多 variety，處理速度快velocity，價值密度低value

30.資訊科技為大資料時代提供技術支撐有哪些？

在資訊存儲方面，來自斯威大學技大學（Swinburne University of Technology）的研究團隊，在2013年6月29日刊出的《自然通訊（Nature Communications）》雜志的文章中，描述了一種全新的資料存儲方式，可将1PB（1024TB）的資料存儲到一張僅DVD大小的聚合物碟片上。在資訊處理方面，CPU處理能力大幅提升；在資訊傳輸方面，網絡帶寬不斷增加。

31.參考下圖闡述大資料的特征。

大資料的特征被總結為多個V。該圖中給出了4個V，分别是：大資料的量Volume之大，大資料的速度velocity之快，大資料的多樣化variety,以及大資料的價值value密度之低。

32.圖中數字3代表什麼意思? 備份備援數目

33.在spark-shell中，輸入語句完成如下功能：打開本地檔案/usr/local/a.txt，并用a對其引用。val a=sc.textFile(“file:///usr/local/a.txt”)#&&#val a=sc.textFile("/usr/local/a.txt")

34.在spark-shell中，寫出實作如下功能的語句：打開Hadoop分布式檔案/usr/local/a.txt，并儲存在word中。

答案:val word=sc.textFile(“hdfs:///usr/local/a.txt”)

單選：

1.下述關于hadoop的闡述，正确的是 (D)

A. 是一個分布式資料庫與并行計算系統

B. 是一個分布式存儲系統與分布式資料庫

C. 是一個集中式存儲與分布式并行運算系統

D. 是一個分布式存儲與分布式并行運算系統

2.當一個用戶端從Zookeeper伺服器上拿到-ROOT-表的位址以後，就可以通過 © 找到使用者資料表所在的Region伺服器，并直接通路該Region伺服器獲得資料。

A. A.一級尋址

B. B.二級尋址

C. C.三級尋址

D. D.四級尋址

3.(A)是HBase中最核心的子產品，負責維護配置設定給自己的Region，并響應使用者的讀寫請求。

A. Region伺服器

B. Store

C. MemStore緩存

D. StoreFile檔案

4.下列選項中_B_不是NoSQL資料庫的特點。

A. 靈活的可擴充性

B. 動态的資料遷移

C. 靈活的資料模型

D. 與雲計算緊密結合

5.下列關于雲資料庫的特點，錯誤的是_A_

A. 靈活的關系資料模型

B. 較低的使用代價

C. 高性能

D. 動态可擴充性

6.MapReduce是____C____程式設計架構。

A. 分布式并發

B. 非分布式并行

C. 分布式并行

D. 非分布式并發

7.JobTracker的三大功能不包括(D)

A. 資源管理

B. 任務排程

C. 任務監控

D. 排程Map/Reduce任務的執行

8.“使用者原創内容”的資料産生方式對應于下面哪個階段？（B）

A. web1.0

B. web2.0

C. 網際網路

D. 物聯網

9.以下不屬于Action API的是（B）。

A. count()

B. map(func)

C. first()

D. reduce(func)

10.scala>valwordCounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey((a,b) => a + b) scala > wordCounts.collect() 在上面的代碼中屬于“行動”類型的操作的是（D）。

A. flatMap()

B. Map()

C. reduceByKey()

D. collect()

11.Map任務的輸入檔案、Reduce任務的處理結果都是儲存在（B）的。

A. 本地存儲

B. 分布式檔案系統

C. 硬碟

D. 主存

12.以下哪項不是MapReduce體系結構的主要組成部分（D）

A. Client

B. TaskTracker

C. JobTracker

D. TaskScheduler

13.下列選項中（C）不是文檔資料庫的優點

A. 性能好

B. 複雜性低

C. 統一的查詢文法

D. 資料結構靈活

14.HBase是針對谷歌BigTable的開源實作，是一個高可靠、B_、面向列、可伸縮的分布式資料庫，主要用來存儲非結構化和半結構化的松散資料。

A. A.高功能

B. B.高性能

C. C.低效率

D. D.高品質

15.UMP系統借助于__C___來實作叢集内部的負載均衡。

A. 主從庫實作使用者排程

B. 主從庫實作使用者代理伺服器

C. 利用主從庫實作使用者操作的分離

D. 主從庫實作使用者日志管理

16.Spark的主要程式設計語言是：（B）。

A. Java

B. Scala

Python

D. R

17.以下屬于商業級流計算的是：（A）

A. IBM InfoSphere Streams

B. Twitter Storm

C. Yahoo! S4

D. FaceBook Puma

18.下列選項不屬于Zookeeper主要發揮的作用的是__D

A. 提供分布式鎖

B. 監控所有MySQL執行個體

C. 作為全局的配置伺服器

D. 支援透明的資料分片作用

19.以下哪項步驟不包含在溢寫過程中（B）

A. 分區

B. 檔案歸并

C. 排序

D. 合并

20.下列哪個不是連接配接RDS for MySQL資料庫的方法（C）

A. 使用用戶端MySQL-Front通路

B. 使用資料庫管理工具Navicat_MySQL

C. Shell指令

D. 使用MySQL指令登入

21.MapReduce的處理機關是（B）

A. block

B. split

C. Map

D. RR

22.以下不屬于hadoop存在的缺點的是：（B）

A. 表達能力有限

B. 程式設計模式靈活

C. 磁盤IO開銷大

D. 延遲高

23.谷歌的GFS和MapReduce等大資料技術受到追捧，Hadoop平台開始大行其道是在大資料發展的那個時期（B ）

A. 第一階段

B. 第二階段

C. 第三階段

D. 第四階段

24.每個Map任務配置設定一個緩存，MapReduce預設緩存是（A）

A. 100MB

B. 80MB

C. 120MB

D. 200MB

多選：

1.MapReduce執行的全過程包括以下幾個主要階段（ABCD）

A. 從分布式檔案系統讀入資料

B. 執行Map任務輸出中間結果

C. 通過Shuffle階段把中間結果分區排序整理後發送給Reduce任務

D. 執行Reduce任務得到最終結果并寫入分布式系統檔案

2.HDFS特殊的設計，在實作上述優良特性的同時，也使得自身具有一些應用局限性，主要包括以下幾個方面 (AB)

A. A.不适合低延遲資料通路

B. B.無法高效存儲大量小檔案

C. C.不支援單使用者寫入及任意修改檔案

D. D.硬體裝置昂貴

3.最終一緻性根據更新資料後各程序通路到資料的時間和方式的不同，可以進行差別。下列說法正确的是 ABCD

A. 因果一緻性

B. 讀己之所寫一緻性

C. 單調讀一緻性$會話一緻性

D. 單調寫一緻性

4.Reduce端的Shuffle過程包括(ABD)

A. “領取”資料

B. 歸并資料

C. 溢寫

D. 把資料輸入到Reduce任務

5.采用HDFS聯邦的設計方式，可解決單名稱節點以下問題(ABD)

A. HDFS叢集可擴充性

B. 性能更高效

C. 單點故障問題

D. 良好的隔離性

6.MapReduce1.0架構設計具有一些很難克服的缺陷，包括(ABCD)

A. 存在單點故障

B. JobTracker“大包大攬”導緻任務過重

C. 容易出現記憶體溢出

D. 資源劃分不合理

7.三次資訊化浪潮的标志有哪些（ABC）

A. 個人計算機

B. 網際網路

C. 物聯網，雲計算和大資料

D. 人工智能

8.資訊科技需要解決的核心問題包括：（ACD）

A. 資訊存儲

B. 資訊可視

C. 資訊傳輸

D. 資訊處理

9.以下屬于批處理大資料計算的産品有：（AC）

A. MapReduce

B. Storm

C. Spark

D. Pregel

10.以下屬于圖計算的産品有：（ABCD）

A. Pregel

B. GraphX

C. Giraph

D. PowerGraph

11.通路HBase表中的行有哪幾種方式（ABD）

A. 通過單個行鍵

B. 行鍵的區間

C. 列族

D. 全表掃描

12.大資料對科學研究有哪些影響（ABCD）

A. 第一範式：實驗科學

B. 第二範式：理論科學

C. 第三範式：計算科學

D. 第四範式：資料密集型科學

13.關系資料庫無法滿足Web2.0的需求主要表現在哪幾個方面（ACD）

A. 無法滿足海量資料的管理需求

B. 無法滿足資料完整性

C. 無法滿足資料高并發的需求

D. 無法滿足高可擴充性和高可用性的需求

14.人類科學研究範式包括：（ABCD）

A. 實驗

B. 理論

C. 計算

D. 資料

15.下面關于MapReduce工作流程說法正确的是（ABD）

A. 不同的Map任務之間不會進行通信。

B. 不同的Reduce任務之間也不會發生任何資訊交換。

C. 使用者能顯式的從一台機器向另一台機器發送資訊

D. 所有的資料交換都是通過MapReduce架構自身去實作的

16.與傳統并行計算架構相比，以下哪些是MapReduce的優勢（ABC）

A. 非共享式，容錯性好

B. 普通PC機，便宜，擴充性好

C. 程式設計/學習難度較簡單

D. 适用場景為實時、細粒度計算、計算密集型

17.Hadoop1.0的核心元件主要存在以下不足（ABCD）

A. 難以看到程式整體邏輯

B. 開發者自己管理作業之間的依賴關系

C. 執行疊代操作效率低

D. 資源浪費

18.NoSQL資料庫的明顯優勢在于（BCD）

A. 資料的完整性

B. 可以支援超大規模資料存儲

D. 強大的橫向擴充能力

19.HDFS在設計上采取了多種機制保證在硬體出錯的環境中實作資料的完整性。總體而言，HDFS要實作以下目标： (1)相容廉價的硬體裝置 (2)流資料讀寫 (3)大資料集 (4)複雜的檔案模型 (5)強大的跨平台相容性（D）

A. A.(1)(2)(3)(4)

B. B.(1)(2)(4)(5)

C. C.(2)(3)(4)(5)

D. D.(1)(2)(3)(5)

20.Map端的Shuffle過程包括以下哪幾個步驟。（ABCD）

A. 輸入資料和執行Map任務

B. 寫入緩存

C. 溢寫(分區、排序、合并)

D. 檔案歸并

21.MapReduce的廣泛應用包括（ABCD）

A. 關系代數運算

B. 分組與聚合運算

C. 矩陣乘法

D. 矩陣-向量乘法

22.大資料處理主要包括三個類型，分别是：（ABC）。

A. 複雜的批量資料處理

B. 基于曆史資料的互動式查詢

C. 基于實時資料流的資料處理

D. 內建資料

23.UMP系統采用哪兩種資源隔離方式（AB）

A. 用Cgroup限制MySQL程序資源

B. 在Proxy伺服器端限制QPS

C. 通過MySQL執行個體的遷移

D. 采用資源池機制管理資料庫伺服器資源

24.MapReduce執行的全過程包括以下幾個主要階段（ABCD）

25.以下（ACD）産品使Hadoop功能更加完善.

A. Pig

B. QJM

C. Tez

D. Oozie

26.以下屬于流計算的産品有：（ABCD）

A. Storm

B. S4

C. Flume

D. Puma

27.基于MapReduce模型的關系上的标準運算,包括（ABCD）

A. 選擇運算

B. 并、交、差運算

C. 投影運算

D. 自然連接配接運算

28.不同的計算架構統一運作在YARN中，可以帶來如下好處：（ACD）

A. 計算資源按需伸縮

B. 計算資源平均配置設定

C. 不用負載應用混搭，叢集使用率高

D. 共享底層存儲，避免資料跨叢集遷移

29.資料采集系統的基本架構一般有以下三個部分：（ABD）

A. Agent

B. Collector

C. Calculate

D. Store

30.以下屬于Spark的主要特點的是：（ABCD）。

A. 運作速度快

B. 容易使用

C. 通用性

D. 運作模式多樣

31.Spark采用RDD以後能夠實作高效計算的原因主要在于：（ABD）

A. 高效的容錯性

B. 中間結果持久化到記憶體

C. 兩種依賴方式

D. 存放的資料可以是Java對象

32.下列為UMP系統架構設計遵循的原則的是（ABCD）

A. 保持單一的系統對外入口，并且為系統内部維護單一的資源池

B. 消除單點故障，保證服務的高可用性

C. 保證系統具有良好的可伸縮性，能動态地增加、删減計算與存儲節點

D. 保證配置設定給使用者的資源也是彈性可伸縮的，資源之間互相隔離，確定應用和資料的安全

33.資訊科技為大資料時代提供的支撐（BCD）

A. 計算機裝置廉價

B. 儲存設備容量不斷增加

C. CPU處理能力大幅度提升

D. 網絡帶寬不斷增加

34.為了保證系統的容錯性和可用性，HDFS采用了多副本方式對資料進行備援存儲，這種多副本方式具有以下幾個優點：（BCD）

A. A.容易修改資料問題

B. B.加快資料傳輸速度

C. C.保證資料的可靠性

D. D.容易檢查資料錯誤

35.UMP系統是如何保障資料安全的（ABCD）

A. SSL資料庫連接配接

B. 資料通路IP白名單

C. 記錄使用者記錄檔

D. SQL攔截

36.HBase的實作包括3個主要的功能元件：（ABD）

A. A.庫函數

B. B.一個Master主伺服器

C. C.一個Region伺服器

D. D.許多個Region伺服器

判斷：

1.分布式檔案系統在實體結構上是由計算機叢集中的多個節點構成的，這些節點分為兩類:一類叫主節點,另一類叫從節點。（√）

2.MapReduce架構采用了Master/Slave架構，包括一個Master和若幹個Slave。Master上運作JobTracker，Slave上運作TaskTracker . （√）

3.HDFS采用塊的概念，預設的一個塊大小是64MB。（√）

4.HDFS采用抽象的塊概念可以簡化系統設計，适合資料備份，但不可以支援大規模檔案

存儲。（×）

5.在HDFS的設計中，第二名稱節點起到了名稱節點的“檢查點”和“熱備份”的作用，因

為有了第二名稱節點的存在，當名稱節點發生故障時，系統就不會丢失中繼資料資訊。（×）

6.在HBase中執行更新操作時，會在生成一個新版本之前删除資料舊的版本。（×）

7.HBase的系統架構中的用戶端是指使用者。（×）

8.CAP中的C與CAID中的C的含義一樣。（×）

9.NoSQL的英文全稱為 No Structual Query Language。（ ×）

10.雲計算八大優勢為按需服務、随時服務、通用性、高可靠性、極其廉價、超大規模、

虛拟化、高擴充性。（√）

11.雲計算可同時為衆多使用者提供服務。（√）

12.雲資料庫有專屬與自己的資料模型。（ ×）

13.MapReduce是Hadoop MapReduce的開源實作.（×）

14.MapReduce運作在分布式檔案系統GFS上。（√）

15.HDFS聯邦是真正的分布式設計。（×）

16.MapReduce1.0中資源被強制等量劃分為多個“槽”,槽又被進一步劃分為Map槽和

Reduce槽，分别供Map任務和Reduce任務使用，彼此之間能使用配置設定給對方的槽。（×）

17.一個作業包含多個RDD及作用于相應RDD上的各種操作。（√）

18.RDD提供了一組豐富的操作以支援常見的資料運算，分為“行動”（Action）和“轉換”

Transformation。（ √）

19.RDD本質上是一個支援讀寫的分區記錄集合，可以直接修改。（ ×）

20.RDD采用了惰性調用，即在RDD執行過程中，真正的計算發生在RDD的“行動”操作，

對于“行動”之前的所有“轉換”操作，Spark隻是記錄下“轉換”操作應用的一些基礎數

據集以及RDD生成的軌迹，不會觸發真正的計算。（√）

21.人類社會的資料産生大緻經曆了3個階段：營運式系統階段，使用者原創内容階段和感覺

式系統階段。（ √）

22.大資料具有的三大特征：全樣而非抽樣，效率而非精确，相關而非因果。（√）

23.雲計算3中典型的服務模式：IaaS（基礎設施即服務），PaaS（平台即服務），SaaS（軟體

即服務）。（ √）

24.web2.0特征之一就是物聯網原創内容。（ ×）

25.1PB（1024TB）的資料能夠存儲到一張僅DVD大小的聚合物碟片上。（√）

26.NewSQL這類資料庫不僅具有NoSQL對海量資料的存儲管理能力，還保持了傳統資料庫

支援ACID和SQL等特性。（ √）

27.HBase采用行鍵、列族、列限定符、時間戳來定位一個單元格。（√）

28.行鍵是按照字典序存儲。（ √）

29.每個Application都有自己專屬的Executor程序，并且該程序在Application運作期間一直

駐留。Executor程序以多線程的方式運作Task。（√）

30.Spark可以部署在資料總管YARN之上，提供一站式的大資料解決方案。（√）

31.Hadoop屬于開發運作環境中的運作環境。（√）

32.為保證一緻性，關系資料庫遵守ACID模型，NoSQL資料庫遵守BASE模型。（√）

33.HDFS采用抽象的塊概念可以簡化系統設計，适合資料備份，但不可以支援大規模檔案存儲。（×）

34.相對于之前的HDFS10而言，HDFS2.0增加了HDFS HA和HDFS聯邦等新特性。（√）

35.HDFS把硬體出錯看成一種常态，設計了錯誤恢複機制。（√）

36.UMP系統是低成本和高性能的MySQL資料庫方案，關鍵子產品采用Erlang語言實作。（√）

37.Mnesia是一個集中式資料庫管理系統。（×）

38.UMP系統隻為一個使用者建立一個MySQL執行個體。（×）

39.RDS執行個體或簡稱“執行個體”，是使用者購買RDS服務的基本機關。（√）

40.Map函數和Reduce函數都是以key,value作為輸入。（√）

41.MapReduce程式一定要用java來寫。（×）

42.詞頻計算是典型的分組聚合運算。（√）

43.Tez支援DAG作業的計算架構，對作業的操作進行重新分解群組合，解決了不同的MapReduce任務之間存在重複操作，降低效率的問題。（√）

44.流計算秉承一個基本理念，即資料的價值随着時間的流逝而降低，如使用者點選流。（√）

45.分布式資料庫HBase的資料類型隻有字元串。（√）

46.建立RDS賬号，MySQL執行個體支援最多建立20個賬号，SQL Server執行個體支援最多建立50個賬号。（×）

47.HDFS HA提供兩個名稱節點，很好的解決了可擴充性、系統性能和隔離性三個方面的問題。（×）

48.Spark Streaming的原理是将資料分解成一系列短小的批處理作業。（√）

49.Hadoop擅長批處理，不适合流計算。（√）

50.Shuffle過程是指對Map輸出結果進行分區、排序、合并等處理并交給Reduce的過程。（√）

51.HDFS HA本質上不是單名稱節點。（×）

52.Spark可以部署在資料總管YARN之上，提供一站式的大資料解決方案。（√）

53.RDD在Spark架構中運作第一步是建立RDD對象。（√）

54.UMP系統是低成本和高性能的MySQL資料庫方案，關鍵子產品采用Erlang語言實作。（√）

55.BigTable是一個分布式存儲系統，使用谷歌分布式檔案系統MapReduce作為底層資料存儲。（×）

56.在使用者購買RDS執行個體時，所選擇的記憶體大小已經決定了該執行個體的最大連接配接數。（√）

57.MapReduce設計的一個理念是“計算向資料靠攏”,而不是“資料向計算靠攏” （√）

58.HBase操作不存在複雜的表與表之間的關系，隻有簡單的插入、查詢、删除、清空等。（√）

59.資源池是為MySQL執行個體配置設定資源的基本機關。（√）

60.split 是一個邏輯概念，它隻包含一些中繼資料資訊，比如資料起始位置、資料長度、資料所在節點等。它的劃分方法完全由使用者自己決定。（√）

補充：

Web2.0網站系統通常要求嚴格的資料庫事務。（×）

YARN架構設計基本思路就是“放權” (√)

Reduce從©讀取資料。

A.本地存儲 B.磁盤 C.硬碟 D.主存

“軟狀态”是指（狀态可以有一段時間不同步，具有一定的滞後性）。

5.Map端的所有Shuffle過程結束後，所有Map輸出結果都儲存在Map機器的本地磁盤上 (√) P138

16.在許多企業實際應用中，Hadoop和Spark的統一部署是一種比較現實合理的選擇。（）。

√

23.在流處理流程中，實時查詢服務可以不斷更新結果，并将使用者所需的結果實時推送給使用者。（）

24.Spark的設計遵循“一個軟體棧滿足不同應用場景”的理念，逐漸形成了一套完整的生态系統。（）

26.DAG：是Directed Acyclic Graph（有向無環圖）的簡稱，反映RDD之間的依賴關系。（）

27.Spark運作架構包括叢集資料總管（Cluster Manager）、運作作業任務的工作節點（Worker Node）、每個應用的任務控制節點（Driver）和每個工作節點上負責具體任務的執行程序（Executor）。（）

28.一個Application由一個Driver和若幹個Job構成，一個Job由多個Stage構成，一個Stage由多個沒有Shuffle關系的Task組成。（）

29.Stage的類型包括兩種：和。

ShuffleMapStage，ResultStage

30.Spark用Scala語言實作了RDD的API，程式員可以通過調用API實作對RDD的各種操作。（）

分布式檔案系統在實體結構上是由計算機叢集中的多個節點構成的，這些節點分為兩類：一類叫__________；另一類叫__________。(P43)主節點/名稱節點，從節點/資料節點

HDFS采用抽象的塊概念可以簡化系統設計，适合資料備份，但不可以支援大規模檔案存儲。錯誤 P46

在HDFS中，名稱節點負責管理分布式檔案系統的命名空間，儲存了兩個核心的資料結構，即__________和__________。（P46）FsImage，EditLog

分布式檔案系統在實體結構上是由計算機叢集中的多個節點構成的，這些節點分為兩類:一類叫主節點,另一類叫從節點。

HDFS在設計上采取了多種機制保證在硬體出錯的環境中實作資料的完整性。總體而言，HDFS要實作以下目标：__________。(P45) D

(1)相容廉價的硬體裝置

(2)流資料讀寫

(3)大資料集

4)複雜的檔案模型

5)強大的跨平台相容性

A. (1)(2)(3)(4) B. 1)(2)(4)(5) C. 2)(3)(4)(5) D. 1)(2)(3)(5)

HDFS特殊的設計，在實作上述優良特性的同時，也使得自身具有一些應用局限性，主要包括以下幾個方面：。(P45) AB

不适合低延遲資料通路

無法高效存儲大量小檔案

不支援單使用者寫入及任意修改檔案

硬體裝置昂貴

為了保證系統的容錯性和可用性，HDFS采用了多副本方式對資料進行備援存儲，這種多副本方式具有以下幾個優點：。（P50）BCD

容易修改資料問題

加快資料傳輸速度

保證資料的可靠性

容易檢查資料錯誤

1.HDFS采用塊的概念，預設的一個塊大小是64MB。（） (P46) √

2.在HDFS的設計中，第二名稱節點起到了名稱節點的“檢查點”和“熱備份”的作用，因為有了第二名稱節點的存在，當名稱節點發生故障時，系統就不會丢失中繼資料資訊。

（）（P48）×

HDFS把硬體出錯看成一種常态，設計了錯誤恢複機制。 P60 對

第四章

填空

1.HBase是針對谷歌BigTable的開源實作，是一個高可靠、高性能、面向列、可伸縮的分布式資料庫，主要用來存儲非結構化和半結構化的松散資料。 P63 選擇

2.BigTable是一個分布式存儲系統，利用谷歌提出的__________分布式并行計算模型來處理海量資料。 P63 MapReduce

3.HBase隻有一個索引——__________，通過巧妙的設計，HBase中的所有通路方法，或者通過行健通路，或者通過行健掃描，進而使得整個系統不會慢下來。 P65 行健

4.__________是HBase中最核心的子產品，負責維護配置設定給自己的Region，并響應使用者的讀寫請求。選擇 P75 Region伺服器

判斷

1.BigTable是一個分布式存儲系統，使用谷歌分布式檔案系統MapReduce作為底層資料存儲。錯 P63

2.分布式資料庫HBase的資料類型隻有字元串。對 P64

3.HBase操作不存在複雜的表與表之間的關系，隻有簡單的插入、查詢、删除、清空等。

對 P64

4.在HBase中執行更新操作時，會在生成一個新版本之前删除資料舊的版本。 P65 錯

5.HBase的系統架構中的用戶端是指使用者。 P74 錯

單選

1.當一個用戶端從Zookeeper伺服器上拿到-ROOT-表的位址以後，就可以通過________找到使用者資料表所在的Region伺服器，并直接通路該Region伺服器獲得資料。

A.一級尋址 B.二級尋址 C.三級尋址 D.四級尋址

P74 C

多選

1.HBase的實作包括3個主要的功能元件：__________。

A.庫函數

B.一個Master主伺服器

C.一個Region伺服器

D.許多個Region伺服器

ABD P71

第五六章

下列選項中（B）不是NoSQL資料庫的特點。

靈活的可擴充性 B.動态的資料遷移 C.與雲計算緊密融合 D.靈活的資料模型

NoSQL的英文全稱（Not only Structual Query Language）。

NoSQL的英文全稱為 No Structual Query Language。×

關系資料庫無法滿足Web2.0的需求主要表現在哪幾個方面（ACD）

無法滿足海量資料的管理需求

無法滿足資料完整性的需求

無法滿足資料高并發性的需求

無法滿足高可擴充性和高可用性的需求

與分布式對應的方式是（集中式）

Hadoop屬于開發運作環境中的運作環境。√

為保證一緻性，關系資料庫遵守ACID模型，NoSQL資料庫遵守BASE模型。√

NoSQL資料庫的明顯優勢在于（BCD）。

實作資料完整性

支援超大規模資料存儲

靈活的資料模型可以很好的支援Web2.0應用

具有強大的橫向擴充能力

Web2.0網站系統通常要求嚴格的資料庫事務。×

NoSQL的四大類型為鍵值資料庫、（列族資料庫）、文檔資料庫、圖資料庫

下列選項中（C）不是文檔資料庫的優點。

性能好 B.靈活性高 C.統一的查詢文法 D.資料結構靈活

NoSQL的三大基石包括（CAP、BASE、最終一緻性）。

CAP中的C與CAID中的C的含義一樣。×

NewSQL這類資料庫不僅具有NoSQL對海量資料的存儲管理能力，還保持了傳統資料庫支援ACID和SQL等特性。√

最終一緻性根據更新資料後各程序通路到資料的時間和方式的不同，可以進行差別。下列說法正确的是（ABCD）。

因果一緻性

“讀己之所寫”一緻性

會話一緻性

單調一緻性

“軟狀态”是指（狀态可以有一段時間不同步，具有一定的滞後性）。

雲計算八大優勢為按需服務、随時服務、通用性、（高可靠性）、極其廉價、超大規模、（虛拟化）、高擴充性。

雲計算主要包括3種類型，即（IaaS、PaaS、SaaS）。

雲計算可同時為衆多使用者提供服務。√

下列關于雲資料庫的特點，錯誤的是（A）。

高可靠性 B.高可擴充性 C.采用多租形式 D.支援資源有效分布

關系資料庫采用（關系資料）模型，NoSQL資料庫采用（非關系資料）模型。

雲資料庫有專屬與自己的資料模型。×

UMP系統是低成本和高性能的MySQL資料庫方案，關鍵子產品采用Erlang語言實作。√

下列為UMP系統架構設計遵循的原則的是（ABCD）。

保持單一的系統對外入口，并且為系統内部維護單一的資源池

保持單一故障，保證服務的高可用性

保證系統具有良好的可伸縮性，能夠動态地增加、删減計算與存儲節點

保證配置設定給使用者的資源是彈性可伸縮的，資源之間互相隔離，保證應用和資料的安全

Mnesia是一個集中式資料庫管理系統。×

下列選項不屬于Zookeeper主要發揮的作用的是（D）。

作為全局的配置伺服器

提供分布式鎖

監視所有MySQL執行個體

支援透明的資料分片

UMP系統借助于（）來實作叢集内部的負載均衡。

Mnesia B.Zookeeper C.LVS D.Controller伺服器

UMP系統功能為（容災）、讀寫分離、資源管理、資源排程、（資源隔離）和資料安全。

UMP系統隻為一個使用者建立一個MySQL執行個體。×

資源池是為MySQL執行個體配置設定資源的基本機關。√

UMP系統采用哪兩種資源隔離方式（AB）。

用Cgroup限制MySQL程序資源

在Proxy伺服器限制QPS

通過MySQL執行個體的遷移

采用資源池機制管理資料庫伺服器資源

UMP系統是如何保障資料安全的（ABCD）。

SQL攔截

記錄使用者記錄檔

資料通路IP白名單

SSL資料庫連接配接

RDS英文全稱為（Relational Database Service）。

RDS執行個體或簡稱“執行個體”，是使用者購買RDS服務的基本機關。√

在使用者購買RDS執行個體時，所選擇的記憶體大小已經決定了該執行個體的最大連接配接數。√

建立RDS賬号，MySQL執行個體支援最多建立20個賬号，SQL Server執行個體支援最多建立50個賬号。×

下列哪個不是連接配接RDS for MySQL資料庫的方法（C）。

使用用戶端MySQL-Front通路

使用資料庫管理工具Navicat MySQL

使用Shell指令登入

使用阿裡雲控制台iDB Cloud通路

HBase采用“四維坐标”定位一個單元格。√

行鍵是按照字典序存儲。√

通路HBase表中的行有哪幾種方式（ABD）。

通過單個行鍵通路

通過一個行鍵的區間來通路

直接讀取

全表掃描

41.colFamily指的是（列族）。

第七章

填空：

1.MapReduce的核心函數：_______ _______

答案：P132 Map Reduce

2.MapReduce的核心思想可以用_______來描述。

答案：P134 分而治之

3.MapReduce整個工作流程的核心環節是____過程。

答案：P136 Shuffle

4.Shuffle過程分為____端的操作和____端的操作。

答案：P136 Map Reduce

5.MapReduce是________程式設計架構。

答案：P131 分布式并行

6.MapReduce的處理機關是______

答案：P課件15 split

7.大規模資料集的處理包括_________和________兩個核心環節。

答案：P134 分布式存儲分布式計算

A.C B.C++ C.java D.VB

2.以下哪項不是MapReduce體系結構的主要組成部分(D) P課件9

A.Client B.JobTracker C.TaskTracker D.TaskScheduler

3.每個Map任務配置設定一個緩存，MapReduce預設緩存是(A) P137

A.100MB B.80MB C.120MB D.200MB

4.以下哪項不屬于步驟不包含在溢寫過程中(B) P137

A.分區 B.歸并 C.排序 D.合并

6.Map任務的輸入檔案、Reduce任務的處理結果都是儲存在(A)的。P135

A.分布式檔案系統 B.本地存儲 C.硬碟 D.主存

1.下面關于MapReduce工作流程說法正确的是(ABD) P135

A.不同的Map任務之間不會進行通信。

B.不同的Reduce任務之間也不會發生任何資訊交換。

C.使用者能顯式的從一台機器向另一台機器發送資訊

D.所有的資料交換都是通過MapReduce架構自身去實作的。

2.Map端的Shuffle過程包括以下哪幾個步驟。(ABCD) P136

A.輸入資料和執行Map任務 B.寫入緩存

C.溢寫(分區、排序、合并) D.檔案歸并

3.Reduce端的Shuffle過程包括(ABD) P138

A.“領取”資料 B.歸并資料

C.溢寫 D.把資料輸入到Reduce任務

4.基于MapReduce模型的關系上的标準運算,包括(ABCD) P142

A.選擇運算 B.投影運算 C.并、交、差運算 D.自然連接配接運算

5.MapReduce執行的全過程包括以下幾個主要階段(ABCD) P151

A.從分布式檔案系統讀入資料

B.執行Map任務輸出中間結果

C.通過Shuffle階段把中間結果分區排序整理後發送給Reduce任務

D.執行Reduce任務得到最終結果并寫入分布式系統檔案

6.MapReduce的廣泛應用包括(ABCD) P151

A.關系代數運算 B.分組與聚合運算

C.矩陣-向量乘法 D.矩陣乘法

7.與傳統并行計算架構相比，以下哪些是MapReduce的優勢(ABC)

P課件6

A.非共享式，容錯性好 B.普通PC機，便宜，擴充性好

C.程式設計/學習難度較簡單 D.實時、細粒度計算、計算密集型

1.MapReduce設計的一個理念是“計算向資料靠攏”,而不是“資料向計算靠攏” (√) P133

2.MapReduce程式一定要用java來寫。 (×) P133

3.Map函數和Reduce函數都是以<key,value>作為輸入(√) P133

4.Shuffle過程是指對Map輸出結果進行分區、排序、合并等處理并交給Reduce的過程。 (√) P136

5.Map端的所有Shuffle過程結束後，所有Map輸出結果都儲存在Map機器的本地磁盤上 (√) P138

6.詞頻計算是典型的分組聚合運算。 (√) P144

7.MapReduce運作在分布式檔案系統GFS上。 (√) P132

8.MapReduce是Hadoop MapReduce的開源實作。 (×) P132

9.MapReduce架構采用了Master/Slave架構，包括一個Master和若幹個Slave。Master上運作JobTracker，Slave上運作TaskTracker .

(√) P課件7

split 是一個邏輯概念，它隻包含一些中繼資料資訊，比如資料起始位置、資料長度、資料所在節點等。它的劃分方法完全由使用者自己決定。 (√) P課件15

第八章

單選

1.JobTracker的三大功能不包括(D) P160

A.資源管理

B.任務排程

C.任務監控

D.排程Map/Reduce任務的執行

1.Hadoop1.0的核心元件主要存在以下不足(ABCD)P155

A.難以看到程式整體邏輯

B.開發者自己管理作業之間的依賴關系

C.執行疊代操作效率低

D.資源浪費

2.以下(ACD)産品使Hadoop功能更加完善. P156

A.Pig

B.QJM

C.Tez

D.Oozie

3.采用HDFS聯邦的設計方式，可解決單名稱節點以下問題(ABD) P159

A.HDFS叢集可擴充性

B.性能更高效

C.單點故障問題

D.良好的隔離性

4.MapReduce1.0架構設計具有一些很難克服的缺陷，包括(ABCD) P160

A.存在單點故障

B.JobTracker“大包大攬”導緻任務過重

C.容易出現記憶體溢出

D.資源劃分不合理

1.MapReduce1.0采用________架構設計，包括一個__JobTracker___和若幹個____TaskTracker___

答案：Master/Slave P159

2.YARN體系結構中包含了三個元件：__ResourceManager 、___、 NodeManager ______

答案： ApplicationMaster P161

1.Tez支援DAG作業的計算架構，對作業的操作進行重新分解群組合，解決了不同的MapReduce任務之間存在重複操作，降低效率的問題。 (√) P156

2.相對于之前的HDFS10而言，HDFS2.0增加了HDFS HA和HDFS聯邦等新特性。 (√) P156

3.HDFS HA提供兩個名稱節點，很好的解決了可擴充性、系統性能和隔離性三個方面的問題。(×) P158

4.HDFS聯邦是真正的分布式設計。(×) P158

5.HDFS HA本質上不是單名稱節點。 (×) P158

6.MapReduce1.0中資源被強制等量劃分為多個“槽”,槽又被進一步劃分為Map槽和Reduce槽，分别供Map任務和Reduce任務使用，彼此之間能使用配置設定給對方的槽。 (×) P160

YARN架構設計基本思路就是“放權” (√) P160

第九十章

1.以下屬于Spark的主要特點的是：（）。

A.運作速度快

B.容易使用

C.通用性

D.運作模式多樣

ABCD

2.Spark使用_________執行引擎。

DAG

3.Scala是一門現代的多範式程式設計語言，平滑的內建了_________和_________的特性，旨在以簡練優雅的方式來表達常用程式設計模式。

面向對象，函數式

4.Spark的主要程式設計語言是：（）。

A.Java

B.Scala

C.Python

D.R

5.大資料處理主要包括三個類型，分别是：（）。

A.複雜的批量資料處理

B.基于曆史資料的互動式查詢

C.基于實時資料流的資料處理

D.內建資料

ABC

6.RDD是_________資料集。是分布式記憶體的一個抽象概念，提供了一種高度受限的共享記憶體模型。

彈性分布式

7.是作業排程的基本機關。

階段

8.一個作業包含多個RDD及作用于相應RDD上的各種操作（）。

9.以下不屬于hadoop存在的缺點的是：（）。

A.表達能力有限

B.程式設計模式靈活

C.磁盤IO開銷大

D.延遲高

ACD

10.RDD提供了一組豐富的操作以支援常見的資料運算，分為“行動”（Action）和“轉換”（Translation）（）。

11.Spark并不能完全替代Hadoop，主要用于替代Hadoop中的MapReduce計算模型（）。

12.Spark可以部署在資料總管YARN之上，提供一站式的大資料解決方案（）。

13.RDD本質上是一個支援讀寫的分區記錄集合，可以直接修改（）。

14.RDD采用了惰性調用，即在RDD執行過程中，真正的計算發生在RDD的“行動”操作，對于“行動”之前的所有“轉換”操作，Spark隻是記錄下“轉換”操作應用的一些基礎資料集以及RDD生成的軌迹，不會觸發真正的計算。（）。

15.目前Spark支援三種不同類型的部署方式，包括、、_。

standalone、Spark on Mesos、Spark on YARN。

17.以下不屬于Action API的是（）。

A.count()

B.map(func)

C.first()

D.reduce(func)

18.scala >val wordCounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey((a,b) => a + b)

scala > wordCounts.collect()

在上面的代碼中屬于“行動”類型的操作的是（）。

A.flatMap()

B.map()

C.reduceByKey()

D.collect()

19.流計算秉承一個基本理念，即資料的價值随着時間的流逝而降低，如使用者點選流。（）

20.以下屬于商業級流計算的是：（）。

A.IBM InfoSphere Streams

B.Twitter Storm

C.Yahoo! S4

D.FaceBook Puma

21.Hadoop擅長批處理，不适合流計算。()

22.資料采集系統的基本架構一般有以下三個部分：（）。

A.Agent

B.Collector

C.Calculate

D.Store

25.Spark可以部署在資料總管YARN之上，提供一站式的大資料解決方案。（）

大資料基礎習題

繼續閱讀

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

User Defined Hadoop DataType

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

mysql使用source指令導入.sql檔案

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

win10本地scala和spark安裝安裝scala安裝spark