大資料原理與應用期末備考 三天速成不挂科
簡答題直達 → 簡答部分導航
- 大資料原理與應用期末備考 三天速成不挂科
- 第一章 大資料概述
- 第二章 大資料處理架構 Hadoop
- 第三章 分布式檔案系統 HDFS
- 第四章 MapReduce
(正确答案已标出)
第一章 大資料概述
單選
-
被譽為全球未來的三大高科技産業除了塑膠電子學和仿生人體器官外,還有()
A、物聯網
B、數學
C、經典力學
D、社會學
-
雲計算的基礎層是()
A、IaaS 層
B、PaaS層
C、SaaS層
D、BaaS層
-
雲計算是對( )技術的發展與運用。
A、并行計算
B、網格計算
C、分布式計算
D、三個選項都是
-
雲計算的中間層是()
A、IaaS 層
B、PaaS層
C、SaaS層
D、BaaS層
-
雲計算裡面面臨的一個很大的問題,就是( )
A、伺服器
B、存儲
C、計算
D、節能
-
與開源雲計算系統HadoopHDFS相對應的商用雲計算軟體系統是( )
A、GoogleGFS
B、GoogleMapReduce
C、GoogleBigtable
D、GoogleChubby
-
雲計算體系結構的( )負責資源管理、任務管理使用者管理和安全管理等工作。
A、實體資源層
B、資源池層
C、管理中間件層
D、SOA建構層
-
雲計算就是把計算資源都放到( )上。
A、對等網
B、網際網路
C、廣域網
D、無線網
多選
-
工業4.0 通過自主要制、聯網和計算,使人、機器和資訊互相連接配接,融為一體,包括:( )
A、智能工廠
B、智能生産
C、智能物流
D、智能金融
-
“ 網際網路+ ” 行動計劃重點是促進以( )為代表的新一代資訊技術與現代制造業、生産性服務等的融合創新。
A、雲計算
B、物聯網
C、大資料
D、雲存儲
-
大資料具有哪些特征( )
A、資料類型繁多
B、價值密度低
C、資料量大
D、處理速度快
-
下列系統中,屬于開源系統的是()
A、GFS 檔案系統
B、HDFS 檔案系統
C、HBase 資料管理子產品
D、BigTable 資料管理子產品
-
雲架構包含以下哪些?
A、基礎設施層
B、服務層
C、應用層
D、平台層
-
雲解決方案包括()
A、雲平台開發
B、雲咨詢
C、雲遷移
D、雲測試
-
大資料催生的三元空間世界包括( )
A、實體空間
B、社會空間
C、資料空間
D、網絡空間
-
從研究現狀上看,下面屬于雲計算特點的是( )
A、超大規模
B、虛拟化
C、私有化
D、高可靠性
第二章 大資料處理架構 Hadoop
單選
-
在 Hadoop 項目結構中,MapReduce 指的是什麼?
A、流計算架構
B、分布式并行程式設計模型
C、Hadoop上的工作流管理系統
D、提供分布式協調一緻性服務
-
假設設定的副本數(即參宿 dfs.replication )是 3,現在系統中有 5 個副本,那麼系統會删除幾個副本。
A、4
B、5
C、1
D、2
-
哪個是第三次資訊化浪潮的标志。
A、個人計算機
B、網際網路
C、資訊處理
D、雲計算,物聯網和大資料
-
二維碼目前不能表示的資料類型是()。
A、文字
B、數字
C、二進制
D、視訊
-
Hadoop 架構中最核心的設計是什麼?
A、為海量資料提供存儲的 HDFS 和對資料進行計算的 MapReduce
B、提供整個 HDFS 檔案系統的 NameSpace (命名空間)管理、塊管理等所有服務
C、Hadoop不僅可以運作在企業内部的叢集中,也可以運作在雲計算環境中
D、Hadoop被視為事實上的大資料處理标準
-
( )是負責對物聯網收集到的資訊進行處理、管理、決策的背景計算處理平台。
A、感覺層
B、網絡層
C、雲計算平台
D、實體層
-
權威的物聯網的概念是()年釋出的《物聯網報告》中所提出的定義。
A、1998
B、1999
C、2000
D、2005
-
下列那個不是常見的關系資料庫?()
A、Oracle
B、SQL Server
C、MySQL
D、Qcreator
-
為資料中心選取位址時,一般不會優先考慮下面哪個因素
A、是否有廉價的電能
B、是否靠近大型水源
C、是否有較大面積的空地
D、是否有良好的空氣品質
-
下列哪個不屬于 Hadoop 的特性
A、成本高
B、高可靠性
C、高容錯性
D、運作在Linux平台上
-
物聯網的概念,最早是由美國的麻省理工學院在()年提出來的。
A、1998
B、1999
C、2000
D、2002
-
目前大資料技術的基礎是由( )首先提出的。
A、微軟
B、百度
C、谷歌
D、阿裡巴巴
-
配置Hadoop時,JAVA_HOME 包含在哪一個配置檔案中。
A. hadoop-default.xml
B. hadoop-env.sh
C. hadoop-site.xml
D. configuration.xsl
-
世界上第一個原始的搜尋引擎為()。
A、W3Catalog
B、Aliweb
C、Google
D、Baidu
-
利用 RFID、傳感器、二維碼等随時随地擷取物體的資訊,指的是()。
A、可靠傳遞
B、全面感覺
C、智能處理
D、網際網路
-
在雲計算平台中,()軟體即服務。
A、IaaS
B、PaaS
C、SaaS
D、QaaS
-
關于Hadoop單機模式和僞分布式模式的說法,正确的是
A. 兩者都起守護程序,且守護程序運作在一台機器上
B. 單機模式不使用 HDFS,但加載守護程序
C. 兩者都不與守護程序互動,避免複雜性
D. 後者比前者增加了 HDFS 輸入輸出以及可檢查記憶體使用情況
-
運用雲計算、資料挖掘以及模糊識别等人工智能技術,對海量的資料和資訊進行分析和處理,對物體實施智能化的控制,指的是()。
A、可靠傳遞
B、全面感覺
C、智能處理
D、網際網路
第三章 分布式檔案系統 HDFS
單選
-
分布式檔案系統指的是什麼?
A、把檔案分布存儲到多個計算機節點上,成千上萬的計算機節點構成計算機叢集
B、用于在 Hadoop 與傳統資料庫之間進行資料傳遞
C、一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統
D、一種高吞吐量的分布式釋出訂閱消息系統,可以處理消費者規模的網站中的所有動作流資料
-
下面哪一項不屬于計算機叢集中的節點?
A、主節點(Master Node)
B、源節點(SourceNode)
C、名稱結點(NameNode)
D、從節點(Slave Node)
-
在HDFS2.X中,預設一個塊多大?
A、64MB
B、32MB
C、128MB
D、16MB
-
下列哪一項不屬于 HDFS 采用抽象的塊概念帶來的好處?
A、簡化系統設計
B、支援大規模檔案存儲
C、強大的跨平台相容性
D、适合資料備份
-
在 HDFS 中,NameNode 的主要功能是什麼?
A、維護了 block id 到 datanode 本地檔案的映射關系
B、存儲檔案内容
C、檔案記憶體儲存在磁盤中
D、存儲中繼資料
-
下面對 FsImage 的描述,哪個是錯誤的?
A、FsImage 檔案沒有記錄每個塊存儲在哪個資料節點
B、FsImage 檔案包含檔案系統中所有目錄和檔案 inode 的序列化形式
C、FsImage 用于維護檔案系統樹以及檔案樹中所有的檔案和檔案夾的中繼資料
D、FsImage 檔案記錄了每個塊具體被存儲在哪個資料節點
-
下面對 SecondaryNameNode 第二名稱節點的描述,哪個是錯誤的?
A、SecondaryNameNode 一般是并行運作在多台機器上
B、它是用來儲存名稱節點中對 HDFS 中繼資料資訊的備份,并減少名稱節點重新開機的時間
C、SecondaryNameNode 通過 HTTPGET 方式從 NameNode 上擷取到 FsImage 和 EditLog 檔案,并下載下傳到本地的相應目錄下
D、SecondaryNameNode 是 HDFS 架構中的一個組成部分
-
HDFS采用了什麼模型?
A、分層模型
B、主從結構模型
C、管道-過濾器模型
D、點對點模型
-
在 Hadoop 項目結構中,HDFS 指的是什麼?
A、分布式檔案系統
B、流資料讀寫
C、資源管理和排程器
D、Hadoop上的資料倉庫
-
下列關于HDFS的描述,哪個不正确?
A、HDFS還采用了相應的資料存放、資料讀取和資料複制政策,來提升系統整體讀寫響應性能
B、HDFS采用了主從(Master/Slave)結構模型
C、HDFS采用了備援資料存儲,增強了資料可靠性
D、HDFS采用塊的概念,使得系統的設計變得更加複雜
多選
-
HDFS 要實作以下哪幾個目标?
A、相容廉價的硬體裝置
B、流資料讀寫
C、大資料集
D、複雜的檔案模型
-
HDFS 特殊的設計,在實作優良特性的同時,也使得自身具有一些應用局限性,主要包括以下哪幾個方面?
A、較差的跨平台相容性
B、無法高效存儲大量小檔案
C、不支援多使用者寫入及任意修改檔案
D、不适合低延遲資料通路
-
HDFS 采用抽象的塊概念可以帶來以下哪幾個明顯的好處?
A、支援大規模檔案存儲
B、支援小規模檔案存儲
C、适合資料備份
D、簡化系統設計
-
在 HDFS 中,名稱節點主要儲存了哪些核心的資料結構?
A、FsImage
B、DN8
C、Block
D、EditLog
-
資料節點的主要功能包括哪些?
A、負責資料的存儲和讀取
B、根據用戶端或者是名稱節點的排程來進行資料的存儲和檢索
C、向名稱節點定期發送自己所存儲的塊的清單
D、用來儲存名稱節點中對 HDFS 中繼資料資訊的備份,并減少名稱節點重新開機的時間
-
HDFS 的命名空間包含什麼?
A、磁盤
B、檔案
C、塊
D、目錄
-
下列對于客服端的描述,哪些是正确的?
A、用戶端是使用者操作 HDFS 最常用的方式,HDFS 在部署時都提供了用戶端
B、HDFS 用戶端是一個庫,暴露了 HDFS 檔案系統接口
C、嚴格來說,用戶端并不算是 HDFS 的一部分
D、用戶端可以支援打開、讀取、寫入等常見的操作
-
HDFS 隻設定唯一一個名稱節點,這樣做雖然大大簡化了系統設計,但也帶來了哪些明顯的局限性?
A、命名空間的限制
B、性能的瓶頸
C、隔離問題
D、叢集的可用性
-
HDFS 資料塊多副本存儲具備以下哪些優點?
A、加快資料傳輸速度
B、容易檢查資料錯誤
C、保證資料可靠性
D、适合多平台上運作
-
HDFS 具有較高的容錯性,設計了哪些相應的機制檢測資料錯誤和進行自動恢複?
A、資料源太大
B、資料節點出錯
C、資料出錯
D、名稱節點出錯
第四章 MapReduce
單選
-
下列傳統并行計算架構,說法錯誤的是哪一項?
A、刀片伺服器、高速網、SAN,價格貴,擴充性差上
B、共享式(共享記憶體/共享存儲),容錯性好
C、程式設計難度高
D、實時、細粒度計算、計算密集型
-
下列關于 MapReduce 模型的描述,錯誤的是哪一項?
A、MapReduce 采用 “ 分而治之 ” 政策
B、MapReduce 設計的一個理念就是 “ 計算向資料靠攏 ”
C、MapReduce 架構采用了 Master/Slave 架構
D、MapReduce應用程式隻能用Java來寫
-
MapReduce1.0 的體系結構中,JobTracker 是主要任務是什麼?
A、負責資源監控和作業排程,監控所有 TaskTracker 與 Job 的健康狀況
B、使用 “ slot ” 等量劃分本節點上的資源量(CPU、記憶體等)
C、會周期性地通過 “ 心跳 ” 将本節點上資源的使用情況和任務的運作進度彙報給 TaskTracker
D、會跟蹤任務的執行進度、資源使用量等資訊,并将這些資訊告訴任務(Task)
-
下列關于 MapReduce 工作流程,哪個描述是正确的?
A、所有的資料交換都是通過 MapReduce 架構自身去實作的
B、不同的Map任務之間會進行通信
C、不同的Reduce任務之間可以發生資訊交換
D、使用者可以顯式地從一台機器向另一台機器發送消息
-
下列關于 MapReduce 的說法,哪個描述是錯誤的?
A、MapReduce具有廣泛的應用,比如關系代數運算、分組與聚合運算等
B、MapReduce将複雜的、運作于大規模叢集上的并行計算過程高度地抽象到了兩個函數
C、程式設計人員在不會分布式并行程式設計的情況下,也可以很容易将自己的程式運作在分布式系統上,完成海量資料集的計算
D、不同的 Map 任務之間可以進行通信
-
下列關于 Map 和 Reduce 函數的描述,哪個是錯誤的?
A、Map将小資料集進一步解析成一批<key,value>對,輸入Map函數中進行處理
B、Map每一個輸入的<k 1 ,v 1 >會輸出一批<k 2 ,v 2 >。<k 2 ,v 2 >是計算的中間結果
C、Reduce輸入的中間結果<k 2 ,List(v 2 )>中的List(v 2 )表示是一批屬于不同k 2 的value
D、Reduce輸入的中間結果<k 2 ,List(v 2 )>中的List(v 2 )表示是一批屬于同一個k 2 的value
-
下面哪一項不是 MapReduce 體系結構主要部分?
A、Client
B、JobTracker
C、TaskTracker以及Task
D、Job
-
關于 MapReduce1.0 的體系結構的描述,下列說法錯誤的是?
A、Task 分為 Map Task 和Reduce Task 兩種,分别由JobTracker 和TaskTracker 啟動
B、slot 分為Map slot 和Reduce slot 兩種,分别供MapTask 和Reduce Task 使用
C、TaskTracker 使用“slot”等量劃分本節點上的資源量(CPU、記憶體等)
D、TaskTracker 會周期性接收JobTracker 發送過來的指令并執行相應的操作(如啟動新任務、殺死任務等)
-
下列說法錯誤的是?
A、Hadoop MapReduce 是 MapReduce 的開源實作,後者比前者使用門檻高很多
B、MapReduce 采用非共享式架構,容錯性好
C、MapReduce主要用于批處理、實時、計算密集型應用
D、MapReduce 采用 “ 分而治之 ” 政策
多選
-
MapReduce 相較于傳統的并行計算架構有什麼優勢?
A、非共享式,容錯性好
B、普通PC機,便宜,擴充性好
C、程式設計簡單,隻要告訴 MapReduce 做什麼即可
D、批處理、非實時、資料密集型
-
MapReduce體系結構主要由以下那幾個部分構成?
A、Client
B、JobTracker
C、TaskTracker
D、Task
-
下列關于 MapReduce 的體系結構的描述,說法正确的有?
A、使用者編寫的 MapReduce 程式通過 Client 送出到 JobTracker 端
B、JobTracker 負責資源監控和作業排程
C、TaskTracker 監控所有 TaskTracker 與Job 的健康狀況
D、TaskTracker 使用 “ slot ” 等量劃分本節點上的資源量(CPU、記憶體等)
-
MapReduce 的作業主要包括什麼?
A、從磁盤或從網絡讀取資料,即 I/O 密集工作
B、計算資料,即 CPU 密集工作
C、針對不同的工作節點選擇合适硬體類型
D、負責協調叢集中的資料存儲
-
對于MapReduce 而言,其處理機關是 split。split 是一個邏輯概念,它包含哪些中繼資料資訊?
A、資料起始位置
B、資料長度
C、資料所在節點
D、資料大小
-
下列關于 Map 端的 Shuffle 的描述,哪些是正确的?
A、MapReduce 預設為每個 Map 任務配置設定 1000MB 緩存
B、多個溢寫檔案歸并成一個或多個大檔案,檔案中的鍵值對是排序的
C、當資料很少時,不需要溢寫到磁盤,直接在緩存中歸并,然後輸出給Reduce
D、每個 Map 任務配置設定多個緩存,使得任務運作更有效率
-
MapReduce 的具體應用包括哪些?
A、關系代數運算(選擇、投影、并、交、差、連接配接)
B、分組與聚合運算
C、矩陣-向量乘法
D、矩陣乘法
-
MapReduce 執行的全過程包括以下哪幾個主要階段?
A、從分布式檔案系統讀入資料
B、執行 Map 任務輸出中間結果
C、通過 Shuffle 階段把中間結果分區排序整理後發送給 Reduce 任務
D、執行 Reduce 任務得到最終結果并寫入分布式檔案系統
-
下列說法正确的是?
A、MapReduce 體系結構主要由四個部分組成,分别是:Client、JobTracker、TaskTracker以及Task
B、Task 分為 Map Task 和 Reduce Task 兩種,均由 TaskTracker 啟動
C、在 MapReduce 工作流程中,所有的資料交換都是通過 MapReduce 架構自身去實作的
D、在 MapReduce 工作流程中,使用者不能顯式地從一台機器向另一台機器發送消息