第三章
分布式檔案系統在實體結構上是由計算機叢集中的多個節點構成的,這些節點分為兩類:一類叫_;另一類叫_。(P43)主節點/名稱節點,從節點/資料節點 HDFS采用抽象的塊概念可以簡化系統設計,适合資料備份,但不可以支援大規模檔案存儲。 錯誤 P46 在HDFS中,名稱節點負責管理分布式檔案系統的命名空間,儲存了兩個核心的資料結構,即_和_。(P46)FsImage,EditLog 分布式檔案系統在實體結構上是由計算機叢集中的多個節點構成的,這些節點分為兩類:一類叫主節點,另一類叫從節點。
HDFS在設計上采取了多種機制保證在硬體出錯的環境中實作資料的完整性。總體而言,HDFS要實作以下目标:____。(P45) D (1)相容廉價的硬體裝置 (2)流資料讀寫 (3)大資料集 4)複雜的檔案模型 5)強大的跨平台相容性 A. (1)(2)(3)(4) B. 1)(2)(4)(5) C. 2)(3)(4)(5) D. 1)(2)(3)(5)
HDFS特殊的設計,在實作上述優良特性的同時,也使得自身具有一些應用局限性,主要包括以下幾個方面:_。(P45) AB 不适合低延遲資料通路 無法高效存儲大量小檔案 不支援單使用者寫入及任意修改檔案 硬體裝置昂貴 為了保證系統的容錯性和可用性,HDFS采用了多副本方式對資料進行備援存儲,這種多副本方式具有以下幾個優點:_。(P50)BCD 容易修改資料問題 加快資料傳輸速度 保證資料的可靠性 容易檢查資料錯誤
1.HDFS采用塊的概念,預設的一個塊大小是64MB。 ( ) (P46) √ 2.在HDFS的設計中,第二名稱節點起到了名稱節點的“檢查點”和“熱備份”的作用,因為有了第二名稱節點的存在,當名稱節點發生故障時,系統就不會丢失中繼資料資訊。 ( ) (P48)× HDFS把硬體出錯看成一種常态,設計了錯誤恢複機制。 P60 對
第四章 填空 1.HBase是針對谷歌BigTable的開源實作,是一個高可靠、高性能、面向列、可伸縮的分布式資料庫,主要用來存儲非結構化和半結構化的松散資料。 P63 選擇 2.BigTable是一個分布式存儲系統,利用谷歌提出的_分布式并行計算模型來處理海量資料。 P63 MapReduce 3.HBase隻有一個索引——_,通過巧妙的設計,HBase中的所有通路方法,或者通過行健通路,或者通過行健掃描,進而使得整個系統不會慢下來。 P65 行健 4.____是HBase中最核心的子產品,負責維護配置設定給自己的Region,并響應使用者的讀寫請求。 選擇 P75 Region伺服器
判斷 1.BigTable是一個分布式存儲系統,使用谷歌分布式檔案系統MapReduce作為底層資料存儲。 錯 P63 2.分布式資料庫HBase的資料類型隻有字元串。 對 P64 3.HBase操作不存在複雜的表與表之間的關系,隻有簡單的插入、查詢、删除、清空等。
對 P64 4.在HBase中執行更新操作時,會在生成一個新版本之前删除資料舊的版本。 P65 錯 5.HBase的系統架構中的用戶端是指使用者。 P74 錯
單選 1.當一個用戶端從Zookeeper伺服器上拿到-ROOT-表的位址以後,就可以通過__找到使用者資料表所在的Region伺服器,并直接通路該Region伺服器獲得資料。 A.一級尋址 B.二級尋址 C.三級尋址 D.四級尋址 P74 C
多選 1.HBase的實作包括3個主要的功能元件:____。 A.庫函數 B.一個Master主伺服器 C.一個Region伺服器 D.許多個Region伺服器 ABD P71
第五六章 下列選項中(B)不是NoSQL資料庫的特點。 靈活的可擴充性 B.動态的資料遷移 C.與雲計算緊密融合 D.靈活的資料模型 NoSQL的英文全稱(Not only Structual Query Language)。 NoSQL的英文全稱為 No Structual Query Language。× 關系資料庫無法滿足Web2.0的需求主要表現在哪幾個方面(ACD) 無法滿足海量資料的管理需求 無法滿足資料完整性的需求 無法滿足資料高并發性的需求 無法滿足高可擴充性和高可用性的需求 與分布式對應的方式是(集中式) Hadoop屬于開發運作環境中的運作環境。√ 為保證一緻性,關系資料庫遵守ACID模型,NoSQL資料庫遵守BASE模型。√ NoSQL資料庫的明顯優勢在于(BCD)。 實作資料完整性 支援超大規模資料存儲 靈活的資料模型可以很好的支援Web2.0應用 具有強大的橫向擴充能力 Web2.0網站系統通常要求嚴格的資料庫事務。× NoSQL的四大類型為鍵值資料庫、(列族資料庫)、文檔資料庫、圖資料庫 下列選項中(C)不是文檔資料庫的優點。 性能好 B.靈活性高 C.統一的查詢文法 D.資料結構靈活 NoSQL的三大基石包括(CAP、BASE、最終一緻性)。 CAP中的C與CAID中的C的含義一樣。× NewSQL這類資料庫不僅具有NoSQL對海量資料的存儲管理能力,還保持了傳統資料庫支援ACID和SQL等特性。√ 最終一緻性根據更新資料後各程序通路到資料的時間和方式的不同,可以進行差別。下列說法正确的是(ABCD)。 因果一緻性 “讀己之所寫”一緻性 會話一緻性 單調一緻性 “軟狀态”是指(狀态可以有一段時間不同步,具有一定的滞後性)。 雲計算八大優勢為按需服務、随時服務、通用性、(高可靠性)、極其廉價、超大規模、(虛拟化)、高擴充性。 雲計算主要包括3種類型,即(IaaS、PaaS、SaaS)。 雲計算可同時為衆多使用者提供服務。√ 下列關于雲資料庫的特點,錯誤的是(A)。 高可靠性 B.高可擴充性 C.采用多租形式 D.支援資源有效分布 關系資料庫采用(關系資料)模型,NoSQL資料庫采用(非關系資料)模型。 雲資料庫有專屬與自己的資料模型。× UMP系統是低成本和高性能的MySQL資料庫方案,關鍵子產品采用Erlang語言實作。√ 下列為UMP系統架構設計遵循的原則的是(ABCD)。 保持單一的系統對外入口,并且為系統内部維護單一的資源池 保持單一故障,保證服務的高可用性 保證系統具有良好的可伸縮性,能夠動态地增加、删減計算與存儲節點 保證配置設定給使用者的資源是彈性可伸縮的,資源之間互相隔離,保證應用和資料的安全 Mnesia是一個集中式資料庫管理系統。× 下列選項不屬于Zookeeper主要發揮的作用的是(D)。 作為全局的配置伺服器 提供分布式鎖 監視所有MySQL執行個體 支援透明的資料分片 UMP系統借助于()來實作叢集内部的負載均衡。 Mnesia B.Zookeeper C.LVS D.Controller伺服器 UMP系統功能為(容災)、讀寫分離、資源管理、資源排程、(資源隔離)和資料安全。 UMP系統隻為一個使用者建立一個MySQL執行個體。× 資源池是為MySQL執行個體配置設定資源的基本機關。√ UMP系統采用哪兩種資源隔離方式(AB)。 用Cgroup限制MySQL程序資源 在Proxy伺服器限制QPS 通過MySQL執行個體的遷移 采用資源池機制管理資料庫伺服器資源 UMP系統是如何保障資料安全的(ABCD)。 SQL攔截 記錄使用者記錄檔 資料通路IP白名單 SSL資料庫連接配接 RDS英文全稱為(Relational Database Service)。 RDS執行個體或簡稱“執行個體”,是使用者購買RDS服務的基本機關。√ 在使用者購買RDS執行個體時,所選擇的記憶體大小已經決定了該執行個體的最大連接配接數。√ 建立RDS賬号,MySQL執行個體支援最多建立20個賬号,SQL Server執行個體支援最多建立50個賬号。× 下列哪個不是連接配接RDS for MySQL資料庫的方法(C)。 使用用戶端MySQL-Front通路 使用資料庫管理工具Navicat MySQL 使用Shell指令登入 使用阿裡雲控制台iDB Cloud通路 HBase采用“四維坐标”定位一個單元格。√ 行鍵是按照字典序存儲。√ 通路HBase表中的行有哪幾種方式(ABD)。 通過單個行鍵通路 通過一個行鍵的區間來通路 直接讀取 全表掃描 41.colFamily指的是(列族)。
第七章 填空: 1.MapReduce的核心函數:_ _ 答案:P132 Map Reduce 2.MapReduce的核心思想可以用_來描述。 答案:P134 分而治之 3.MapReduce整個工作流程的核心環節是_過程。 答案:P136 Shuffle 4.Shuffle過程分為_端的操作和_端的操作。 答案:P136 Map Reduce 5.MapReduce是_程式設計架構。 答案:P131 分布式并行 6.MapReduce的處理機關是_ 答案:P課件15 split
7.大規模資料集的處理包括__和______兩個核心環節。 答案:P134 分布式存儲 分布式計算
單選: 1.Hadoop架構是用(C)實作的。 P133 A.C B.C++ C.java D.VB 2.以下哪項不是MapReduce體系結構的主要組成部分(D) P課件9 A.Client B.JobTracker C.TaskTracker D.TaskScheduler 3.每個Map任務配置設定一個緩存,MapReduce預設緩存是(A) P137 A.100MB B.80MB C.120MB D.200MB 4.以下哪項不屬于步驟不包含在溢寫過程中(B) P137 A.分區 B.歸并 C.排序 D.合并 5.Reduce從(C)讀取資料。 P135 A.本地存儲 B.磁盤 C.硬碟 D.主存 6.Map任務的輸入檔案、Reduce任務的處理結果都是儲存在(A)的。P135 A.分布式檔案系統 B.本地存儲 C.硬碟 D.主存
多選: 1.下面關于MapReduce工作流程說法正确的是(ABD) P135 A.不同的Map任務之間不會進行通信。 B.不同的Reduce任務之間也不會發生任何資訊交換。 C.使用者能顯式的從一台機器向另一台機器發送資訊 D.所有的資料交換都是通過MapReduce架構自身去實作的。 2.Map端的Shuffle過程包括以下哪幾個步驟。(ABCD) P136 A.輸入資料和執行Map任務 B.寫入緩存 C.溢寫(分區、排序、合并) D.檔案歸并 3.Reduce端的Shuffle過程包括(ABD) P138 A.“領取”資料 B.歸并資料
C.溢寫 D.把資料輸入到Reduce任務 4.基于MapReduce模型的關系上的标準運算,包括(ABCD) P142 A.選擇運算 B.投影運算 C.并、交、差運算 D.自然連接配接運算 5.MapReduce執行的全過程包括以下幾個主要階段(ABCD) P151
A.從分布式檔案系統讀入資料 B.執行Map任務輸出中間結果 C.通過Shuffle階段把中間結果分區排序整理後發送給Reduce任務 D.執行Reduce任務得到最終結果并寫入分布式系統檔案 6.MapReduce的廣泛應用包括(ABCD) P151 A.關系代數運算 B.分組與聚合運算 C.矩陣-向量乘法 D.矩陣乘法 7.與傳統并行計算架構相比,以下哪些是MapReduce的優勢(ABC) P課件6 A.非共享式,容錯性好 B.普通PC機,便宜,擴充性好 C.程式設計/學習難度較簡單 D.實時、細粒度計算、計算密集型
判斷: 1.MapReduce設計的一個理念是“計算向資料靠攏”,而不是“資料向計算靠攏” (√) P133 2.MapReduce程式一定要用java來寫。 (×) P133 3.Map函數和Reduce函數都是以作為輸入(√) P133
4.Shuffle過程是指對Map輸出結果進行分區、排序、合并等處理并交給Reduce的過程。 (√) P136 5.Map端的所有Shuffle過程結束後,所有Map輸出結果都儲存在Map機器的本地磁盤上 (√) P138 6.詞頻計算是典型的分組聚合運算。 (√) P144 7.MapReduce運作在分布式檔案系統GFS上。 (√) P132 8.MapReduce是Hadoop MapReduce的開源實作。 (×) P132 9.MapReduce架構采用了Master/Slave架構,包括一個Master和若幹個Slave。Master上運作JobTracker,Slave上運作TaskTracker . (√) P課件7 split 是一個邏輯概念,它隻包含一些中繼資料資訊,比如資料起始位置、資料長度、資料所在節點等。它的劃分方法完全由使用者自己決定。 (√) P課件15
第八章 單選 1.JobTracker的三大功能不包括(D) P160 A.資源管理 B.任務排程 C.任務監控 D.排程Map/Reduce任務的執行
多選 1.Hadoop1.0的核心元件主要存在以下不足(ABCD)P155 A.難以看到程式整體邏輯 B.開發者自己管理作業之間的依賴關系 C.執行疊代操作效率低 D.資源浪費 2.以下(ACD)産品使Hadoop功能更加完善. P156 A.Pig B.QJM C.Tez D.Oozie 3.采用HDFS聯邦的設計方式,可解決單名稱節點以下問題(ABD) P159 A.HDFS叢集可擴充性 B.性能更高效 C.單點故障問題 D.良好的隔離性 4.MapReduce1.0架構設計具有一些很難克服的缺陷,包括(ABCD) P160 A.存在單點故障 B.JobTracker“大包大攬”導緻任務過重 C.容易出現記憶體溢出 D.資源劃分不合理 填空 1.MapReduce1.0采用_架構設計,包括一個__JobTracker___和若幹個____TaskTracker___ 答案:Master/Slave P159 2.YARN體系結構中包含了三個元件:__ResourceManager ___、_______、 NodeManager ______ 答案: ApplicationMaster P161
判斷 1.Tez支援DAG作業的計算架構,對作業的操作進行重新分解群組合,解決了不同的MapReduce任務之間存在重複操作,降低效率的問題。 (√) P156 2.相對于之前的HDFS10而言,HDFS2.0增加了HDFS HA和HDFS聯邦等新特性。 (√) P156 3.HDFS HA提供兩個名稱節點,很好的解決了可擴充性、系統性能和隔離性三個方面的問題。(×) P158 4.HDFS聯邦是真正的分布式設計。(×) P158 5.HDFS HA本質上不是單名稱節點。 (×) P158 6.MapReduce1.0中資源被強制等量劃分為多個“槽”,槽又被進一步劃分為Map槽和Reduce槽,分别供Map任務和Reduce任務使用,彼此之間能使用配置設定給對方的槽。 (×) P160 YARN架構設計基本思路就是“放權” (√) P160
第九十章 1.以下屬于Spark的主要特點的是:()。 A.運作速度快 B.容易使用 C.通用性 D.運作模式多樣 ABCD 2.Spark使用_執行引擎。 DAG 3.Scala是一門現代的多範式程式設計語言,平滑的內建了___和___的特性,旨在以簡練優雅的方式來表達常用程式設計模式。 面向對象,函數式 4.Spark的主要程式設計語言是:()。 A.Java B.Scala C.Python D.R B 5.大資料處理主要包括三個類型,分别是:()。 A.複雜的批量資料處理 B.基于曆史資料的互動式查詢 C.基于實時資料流的資料處理 D.內建資料 ABC 6.RDD是___資料集。是分布式記憶體的一個抽象概念,提供了一種高度受限的共享記憶體模型。 彈性分布式 7.___是作業排程的基本機關。 階段 8.一個作業包含多個RDD及作用于相應RDD上的各種操作()。 √ 9.以下不屬于hadoop存在的缺點的是:()。 A.表達能力有限 B.程式設計模式靈活 C.磁盤IO開銷大 D.延遲高 ACD 10.RDD提供了一組豐富的操作以支援常見的資料運算,分為“行動”(Action)和“轉換”(Translation)()。 √ 11.Spark并不能完全替代Hadoop,主要用于替代Hadoop中的MapReduce計算模型()。 √ 12.Spark可以部署在資料總管YARN之上,提供一站式的大資料解決方案()。 √ 13.RDD本質上是一個支援讀寫的分區記錄集合,可以直接修改()。 × 14.RDD采用了惰性調用,即在RDD執行過程中,真正的計算發生在RDD的“行動”操作,對于“行動”之前的所有“轉換”操作,Spark隻是記錄下“轉換”操作應用的一些基礎資料集以及RDD生成的軌迹,不會觸發真正的計算。()。 √ 15.目前Spark支援三種不同類型的部署方式,包括_、__、_。 standalone、Spark on Mesos、Spark on YARN。 16.在許多企業實際應用中,Hadoop和Spark的統一部署是一種比較現實合理的選擇。()。 √ 17.以下不屬于Action API的是()。 A.count() B.map(func) C.first() D.reduce(func) B 18.scala >val wordCounts=textFile.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey((a,b) => a + b) scala > wordCounts.collect() 在上面的代碼中屬于“行動”類型的操作的是()。 A.flatMap() B.map() C.reduceByKey() D.collect() D 19.流計算秉承一個基本理念,即資料的價值随着時間的流逝而降低,如使用者點選流。() √ 20.以下屬于商業級流計算的是:()。 A.IBM InfoSphere Streams B.Twitter Storm C.Yahoo! S4 D.FaceBook Puma A 21.Hadoop擅長批處理,不适合流計算。() √ 22.資料采集系統的基本架構一般有以下三個部分:()。 A.Agent B.Collector C.Calculate D.Store C 23.在流處理流程中,實時查詢服務可以不斷更新結果,并将使用者所需的結果實時推送給使用者。() √ 24.Spark的設計遵循“一個軟體棧滿足不同應用場景”的理念,逐漸形成了一套完整的生态系統。() √ 25.Spark可以部署在資料總管YARN之上,提供一站式的大資料解決方案。() √ 26.DAG:是Directed Acyclic Graph(有向無環圖)的簡稱,反映RDD之間的依賴關系。() √ 27.Spark運作架構包括叢集資料總管(Cluster Manager)、運作作業任務的工作節點(Worker Node)、每個應用的任務控制節點(Driver)和每個工作節點上負責具體任務的執行程序(Executor)。() √ 28.一個Application由一個Driver和若幹個Job構成,一個Job由多個Stage構成,一個Stage由多個沒有Shuffle關系的Task組成。() √ 29.Stage的類型包括兩種:___和_。 ShuffleMapStage,ResultStage 30.Spark用Scala語言實作了RDD的API,程式員可以通過調用API實作對RDD的各種操作。() √