🚀 作者 :“大資料小禅”
🚀 **專欄簡介 **:本專欄主要分享收集的大資料相關的面試題,涉及到Hadoop,Spark,Flink,Zookeeper,Flume,Kafka,Hive,Hbase等大資料相關技術。大資料面試專欄位址。
🚀 **個人首頁 **:大資料小禅
🚀 **粉絲福利 **:加入小禅的大資料社群
🚀 歡迎小夥伴們 點贊👍、收藏⭐、留言💬
面試題目錄
1、HAnamenode 是如何工作的?
2、談談Hadoop序列化和反序列化及自定義bean對象實作序列化?
3、在一個運作的Hadoop 任務中,什麼是InputSplit?
4、如何判定一個job的map和reduce的數量?
5、 Maptask的個數由什麼決定?
6、MapTask和ReduceTask工作機制
7、描述mapReduce有幾種排序及排序發生的階段
8、描述mapReduce中shuffle階段的工作流程,如何優化shuffle階段
9、描述mapReduce中combiner的作用是什麼,一般使用情景,哪些情況不需要,及和reduce的差別?
10、如果沒有定義partitioner,那資料在被送達reducer前是如何被分區的?
11、MapReduce 出現單點負載多大,怎麼負載平衡?
12、MapReduce 怎麼實作 TopN?
13、Hadoop的緩存機制(Distributedcache)
14、如何使用mapReduce實作兩個表的join?
15、什麼樣的計算不能用mr來提速?
16、ETL是哪三個單詞的縮寫
17、簡述hadoop1與hadoop2 的架構異同
18、為什麼會産生 yarn,它解決了什麼問題,有什麼優勢?
19、HDFS的資料壓縮算法?
20、Hadoop的排程器總結
21、MapReduce 2.0 容錯性(☆☆☆☆☆)
總結
ZKFailoverController主要職責
1)健康監測:周期性的向它監控的NN發送健康探測指令,進而來确定某個NameNode是否處于健康狀态,如果機器當機,心跳失敗,那麼zkfc就會标記它處于一個不健康的狀态。
2)會話管理:如果NN是健康的,zkfc就會在zookeeper中保持一個打開的會話,如果NameNode同時還是Active狀态的,那麼zkfc還會在Zookeeper中占有一個類型為短暫類型的znode,當這個NN挂掉時,這個znode将會被删除,然後備用的NN,将會得到這把鎖,更新為主NN,同時标記狀态為Active。
3)當當機的NN新啟動時,它會再次注冊zookeper,發現已經有znode鎖了,便會自動變為Standby狀态,如此往複循環,保證高可靠,需要注意,目前僅僅支援最多配置2個NN。
4)master選舉:如上所述,通過在zookeeper中維持一個短暫類型的znode,來實作搶占式的鎖機制,進而判斷那個NameNode為Active狀态
1)序列化和反序列化
(1)序列化就是把記憶體中的對象,轉換成位元組序列(或其他資料傳輸協定)以便于存儲(持久化)和網絡傳輸。
(2)反序列化就是将收到位元組序列(或其他資料傳輸協定)或者是硬碟的持久化資料,轉換成記憶體中的對象。
(3)Java的序列化是一個重量級序列化架構(Serializable),一個對象被序列化後,會附帶很多額外的資訊(各種校驗資訊,header,繼承體系等),不便于在網絡中高效傳輸。是以,hadoop自己開發了一套序列化機制(Writable),精簡、高效。
2)自定義bean對象要想序列化傳輸步驟及注意事項:
(1)必須實作Writable接口
(2)反序列化時,需要反射調用空參構造函數,是以必須有空參構造
(3)重寫序列化方法
(4)重寫反序列化方法
(5)注意反序列化的順序和序列化的順序完全一緻
(6)要想把結果顯示在檔案中,需要重寫toString(),且用"\t"分開,友善後續用
(7)如果需要将自定義的bean放在key中傳輸,則還需要實作comparable接口,因為mapreduce框中的shuffle過程一定會對key進行排序
FileInputFormat源碼解析(input.getSplits(job))
(1)找到你資料存儲的目錄。
(2)開始周遊處理(規劃切片)目錄下的每一個檔案。
(3)周遊第一個檔案ss.txt。
a)擷取檔案大小fs.sizeOf(ss.txt);。
b)計算切片大小computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M。
c)預設情況下,切片大小=blocksize。
d)開始切,形成第1個切片:ss.txt—0:128M 第2個切片ss.txt—128:256M 第3個切片ss.txt—256M:300M(每次切片時,都要判斷切完剩下的部分是否大于塊的1.1倍,不大于1.1倍就劃分一塊切片)。
e)将切片資訊寫到一個切片規劃檔案中。
f)整個切片的核心過程在getSplit()方法中完成。
g)資料切片隻是在邏輯上對輸入資料進行分片,并不會再磁盤上将其切分成分片進行存儲。InputSplit隻記錄了分片的中繼資料資訊,比如起始位置、長度以及所在的節點清單等。
h)注意:block是HDFS上實體上存儲的存儲的資料,切片是對資料邏輯上的劃分。
(4)送出切片規劃檔案到yarn上,yarn上的MrAppMaster就可以根據切片規劃檔案計算開啟maptask個數。
1)map數量
splitSize=max{minSize,min{maxSize,blockSize}}
map數量由處理的資料分成的block數量決定default_num = total_size / split_size;
2)reduce數量
reduce的數量job.setNumReduceTasks(x);x 為reduce的數量。不設定的話預設為 1。
一個job的map階段MapTask并行度(個數),由用戶端送出job時的切片個數決定。
MapTask工作機制
(1)Read階段:Map Task通過使用者編寫的RecordReader,從輸入InputSplit中解析出一個個key/value。
(2)Map階段:該節點主要是将解析出的key/value交給使用者編寫map()函數處理,并産生一系列新的key/value。
(3)Collect收集階段:在使用者編寫map()函數中,當資料處理完成後,一般會調用OutputCollector.collect()輸出結果。在該函數内部,它會将生成的key/value分區(調用Partitioner),并寫入一個環形記憶體緩沖區中。
(4)Spill階段:即“溢寫”,當環形緩沖區滿後,MapReduce會将資料寫到本地磁盤上,生成一個臨時檔案。需要注意的是,将資料寫入本地磁盤之前,先要對資料進行一次本地排序,并在必要時對資料進行合并、壓縮等操作。
(5)Combine階段:當所有資料處理完成後,MapTask對所有臨時檔案進行一次合并,以確定最終隻會生成一個資料檔案。
ReduceTask工作機制
(1)Copy階段:ReduceTask從各個MapTask上遠端拷貝一片資料,并針對某一片資料,如果其大小超過一定門檻值,則寫到磁盤上,否則直接放到記憶體中。
(2)Merge階段:在遠端拷貝資料的同時,ReduceTask啟動了兩個背景線程對記憶體和磁盤上的檔案進行合并,以防止記憶體使用過多或磁盤上檔案過多。
(3)Sort階段:按照MapReduce語義,使用者編寫reduce()函數輸入資料是按key進行聚集的一組資料。為了将key相同的資料聚在一起,Hadoop采用了基于排序的政策。 由于各個MapTask已經實作對自己的處理結果進行了局部排序,是以,ReduceTask隻需對所有資料進行一次歸并排序即可。
(4)Reduce階段:reduce()函數将計算結果寫到HDFS上。
1)排序的分類:
(1)部分排序:
MapReduce根據輸入記錄的鍵對資料集排序。保證輸出的每個檔案内部排序。
(2)全排序:
如何用Hadoop産生一個全局排序的檔案?最簡單的方法是使用一個分區。但該方法在處理大型檔案時效率極低,因為一台機器必須處理所有輸出檔案,進而完全喪失了MapReduce所提供的并行架構。
替代方案:首先建立一系列排好序的檔案;其次,串聯這些檔案;最後,生成一個全局排序的檔案。主要思路是使用一個分區來描述輸出的全局排序。例如:可以為待分析檔案建立3個分區,在第一分區中,記錄的單詞首字母a-g,第二分區記錄單詞首字母h-n, 第三分區記錄單詞首字母o-z。
(3)輔助排序:(GroupingComparator分組)
Mapreduce架構在記錄到達reducer之前按鍵對記錄排序,但鍵所對應的值并沒有被排序。甚至在不同的執行輪次中,這些值的排序也不固定,因為它們來自不同的map任務且這些map任務在不同輪次中完成時間各不相同。一般來說,大多數MapReduce程式會避免讓reduce函數依賴于值的排序。但是,有時也需要通過特定的方法對鍵進行排序和分組等以實作對值的排序。
(4)二次排序:
在自定義排序過程中,如果compareTo中的判斷條件為兩個即為二次排序。
2)自定義排序WritableComparable
bean對象實作WritableComparable接口重寫compareTo方法,就可以實作排序
@Override
public int compareTo(FlowBean o) {
// 倒序排列,從大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
3)排序發生的階段:
(1)一個是在map side發生在spill後partition前。
(2)一個是在reduce side發生在copy後 reduce前。
分區,排序,溢寫,拷貝到對應reduce機器上,增加combiner,壓縮溢寫的檔案。
1)Combiner的意義就是對每一個maptask的輸出進行局部彙總,以減小網絡傳輸量。
2)Combiner能夠應用的前提是不能影響最終的業務邏輯,而且,Combiner的輸出kv應該跟reducer的輸入kv類型要對應起來。
3)Combiner和reducer的差別在于運作的位置。
Combiner是在每一個maptask所在的節點運作;
Reducer是接收全局所有Mapper的輸出結果。
如果沒有自定義的 partitioning,則預設的 partition 算法,即根據每一條資料的 key 的 hashcode 值摸運算(%)reduce 的數量,得到的數字就是“分區号“。
通過Partitioner實作
可以自定義groupingcomparator,對結果進行最大值排序,然後再reduce輸出時,控制隻輸出前n個數。就達到了topn輸出的目的。
分布式緩存一個最重要的應用就是在進行join操作的時候,如果一個表很大,另一個表很小,我們就可以将這個小表進行廣播處理,即每個計算節點上都存一份,然後進行map端的連接配接操作,經過我的實驗驗證,這種情況下處理效率大大高于一般的reduce端join,廣播處理就運用到了分布式緩存的技術。
DistributedCache将拷貝緩存的檔案到Slave節點在任何Job在節點上執行之前,檔案在每個Job中隻會被拷貝一次,緩存的歸檔檔案會被在Slave節點中解壓縮。将本地檔案複制到HDFS中去,接着Client會通過addCacheFile() 和addCacheArchive()方法告訴DistributedCache在HDFS中的位置。當檔案存放到文地時,JobClient同樣獲得DistributedCache來建立符号連結,其形式為檔案的URI加fragment辨別。當使用者需要獲得緩存中所有有效檔案的清單時,JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都傳回一個指向本地檔案路徑對象數組。
1)reduce side join : 在map階段,map函數同時讀取兩個檔案File1和File2,為了區分兩種來源的key/value資料對,對每條資料打一個标簽(tag),比如:tag=0 表示來自檔案File1,tag=2 表示來自檔案File2。
2)map side join : Map side join 是針對以下場景進行的優化:兩個待連接配接表中,有一個表非常大,而另一個表非常小,以至于小表可以直接存放到記憶體中。這樣,我們可以将小表複制多份,讓每個map task 記憶體中存在一份(比如存放到hash table 中),然後隻掃描大表:對于大表中的每一條記錄key/value,在hash table 中查找是否有相同的key 的記錄,如果有,則連接配接後輸出即可。
1)資料量很小。
2)繁雜的小檔案。
3)索引是更好的存取機制的時候。
4)事務處理。
5)隻有一台機器的時候。
Extraction-Transformation-Loading的縮寫,中文名稱為資料提取、轉換和加載。
1)加入了yarn解決了資源排程的問題。
2)加入了對zookeeper的支援實作比較可靠的高可用。
1)Yarn最主要的功能就是解決運作的使用者程式與yarn架構完全解耦。
2)Yarn上可以運作各種類型的分布式運算程式(mapreduce隻是其中的一種),比如mapreduce、storm程式,spark程式
Hadoop中常用的壓縮算法有bzip2、gzip、lzo、snappy,其中lzo、snappy需要作業系統安裝native庫才可以支援。
企業開發用的比較多的是snappy。
(1)預設的排程器FIFO
Hadoop中預設的排程器,它先按照作業的優先級高低,再按照到達時間的先後選擇被執行的作業。
(2)計算能力排程器Capacity Scheduler
支援多個隊列,每個隊列可配置一定的資源量,每個隊列采用FIFO排程政策,為了防止同一個使用者的作業獨占隊列中的資源,該排程器會對同一使用者送出的作業所占資源量進行限定。排程時,首先按以下政策選擇一個合适隊列:計算每個隊列中正在運作的任務數與其應該分得的計算資源之間的比值,選擇一個該比值最小的隊列;然後按以下政策選擇該隊列中一個作業:按照作業優先級和送出時間順序選擇,同時考慮使用者資源量限制和記憶體限制。
(3)公平排程器Fair Scheduler
同計算能力排程器類似,支援多隊列多使用者,每個隊列中的資源量可以配置,同一隊列中的作業公平共享隊列中所有資源。實際上,Hadoop的排程器遠不止以上三種,最近,出現了很多針對新型應用的Hadoop排程器。
1)MRAppMaster容錯性
一旦運作失敗,由YARN的ResourceManager負責重新啟動,最多重新開機次數可由使用者設定,預設是2次。一旦超過最高重新開機次數,則作業運作失敗。
2)Map Task/Reduce
Task Task周期性向MRAppMaster彙報心跳;一旦Task挂掉,則MRAppMaster将為之重新申請資源,并運作之。最多重新運作次數可由使用者設定,預設4次。
Hadoop的面試題總共分成兩個篇章,内容較多,小夥伴們可以選擇自己需要的部分進行檢視。更多的大資料資料以及本文安裝包可以通過下方公衆号擷取哦,加入小禅的🏘️大資料技術社群一起交流學習,感謝支援!💪