
1)序列化和反序列化
(1)序列化就是把記憶體中的對象,轉換成位元組序列(或其他資料傳輸協定)以便于存儲(持久化)和網絡傳輸。
(2)反序列化就是将收到位元組序列(或其他資料傳輸協定)或者是硬碟的持久化資料,轉換成記憶體中的對象。
(3)Java的序列化是一個重量級序列化架構(Serializable),一個對象被序列化後,會附帶很多額外的資訊(各種校驗資訊,header,繼承體系等),不便于在網絡中高效傳輸。是以,hadoop自己開發了一套序列化機制(Writable),精簡、高效。
2)自定義bean對象要想序列化傳輸步驟及注意事項:。
(1)必須實作Writable接口
(2)反序列化時,需要反射調用空參構造函數,是以必須有空參構造
(3)重寫序列化方法
(4)重寫反序列化方法
(5)注意反序列化的順序和序列化的順序完全一緻
(6)要想把結果顯示在檔案中,需要重寫toString(),且用"t"分開,友善後續用
(7)如果需要将自定義的bean放在key中傳輸,則還需要實作comparable接口,因為mapreduce框中的shuffle過程一定會對key進行排序
2、FileInputFormat切片機制(☆☆☆☆☆)job送出流程源碼詳解
waitForCompletion()
submit();
// 1、建立連接配接
connect();
// 1)建立送出job的代理
new Cluster(getConfiguration());
// (1)判斷是本地yarn還是遠端
initialize(jobTrackAddr, conf);
// 2、送出job
submitter.submitJobInternal(Job.this, cluster)
// 1)建立給叢集送出資料的Stag路徑
Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
// 2)擷取jobid ,并建立job路徑
JobID jobId = submitClient.getNewJobID();
// 3)拷貝jar包到叢集
copyAndConfigureFiles(job, submitJobDir);
rUploader.uploadFiles(job, jobSubmitDir);
// 4)計算切片,生成切片規劃檔案
writeSplits(job, submitJobDir);
maps = writeNewSplits(job, jobSubmitDir);
input.getSplits(job);
// 5)向Stag路徑寫xml配置檔案
writeConf(conf, submitJobFile);
conf.writeXml(out);
// 6)送出job,傳回送出狀态
status = submitClient.submitJob(jobId, submitJobDir.toString(), job.getCredentials());
3、在一個運作的Hadoop 任務中,什麼是InputSplit?(☆☆☆☆☆)FileInputFormat源碼解析(input.getSplits(job))
(1)找到你資料存儲的目錄。
(2)開始周遊處理(規劃切片)目錄下的每一個檔案
(3)周遊第一個檔案ss.txt
a)擷取檔案大小fs.sizeOf(ss.txt);
b)計算切片大小computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M
c)預設情況下,切片大小=blocksize
d)開始切,形成第1個切片:ss.txt—0:128M 第2個切片ss.txt—128:256M 第3個切片ss.txt—256M:300M(每次切片時,都要判斷切完剩下的部分是否大于塊的1.1倍,不大于1.1倍就劃分一塊切片)
e)将切片資訊寫到一個切片規劃檔案中
f)整個切片的核心過程在getSplit()方法中完成。
g)資料切片隻是在邏輯上對輸入資料進行分片,并不會再磁盤上将其切分成分片進行存儲。InputSplit隻記錄了分片的中繼資料資訊,比如起始位置、長度以及所在的節點清單等。
h)注意:block是HDFS上實體上存儲的存儲的資料,切片是對資料邏輯上的劃分。
(4)送出切片規劃檔案到yarn上,yarn上的MrAppMaster就可以根據切片規劃檔案計算開啟maptask個數。
4、如何判定一個job的map和reduce的數量?1)map數量
splitSize=max{minSize,min{maxSize,blockSize}}
map數量由處理的資料分成的block數量決定default_num = total_size / split_size;
2)reduce數量
reduce的數量job.setNumReduceTasks(x);x 為reduce的數量。不設定的話預設為 1。
5、 Maptask的個數由什麼決定?一個job的map階段MapTask并行度(個數),由用戶端送出job時的切片個數決定。
6、MapTask和ReduceTask工作機制(☆☆☆☆☆)(也可回答MapReduce工作原理)(1)Read階段:Map Task通過使用者編寫的RecordReader,從輸入InputSplit中解析出一個個key/value。
(2)Map階段:該節點主要是将解析出的key/value交給使用者編寫map()函數處理,并産生一系列新的key/value。
(3)Collect收集階段:在使用者編寫map()函數中,當資料處理完成後,一般會調用OutputCollector.collect()輸出結果。在該函數内部,它會将生成的key/value分區(調用Partitioner),并寫入一個環形記憶體緩沖區中。
(4)Spill階段:即“溢寫”,當環形緩沖區滿後,MapReduce會将資料寫到本地磁盤上,生成一個臨時檔案。需要注意的是,将資料寫入本地磁盤之前,先要對資料進行一次本地排序,并在必要時對資料進行合并、壓縮等操作。
(5)Combine階段:當所有資料處理完成後,MapTask對所有臨時檔案進行一次合并,以確定最終隻會生成一個資料檔案。
(1)Copy階段:ReduceTask從各個MapTask上遠端拷貝一片資料,并針對某一片資料,如果其大小超過一定門檻值,則寫到磁盤上,否則直接放到記憶體中。
(2)Merge階段:在遠端拷貝資料的同時,ReduceTask啟動了兩個背景線程對記憶體和磁盤上的檔案進行合并,以防止記憶體使用過多或磁盤上檔案過多。
(3)Sort階段:按照MapReduce語義,使用者編寫reduce()函數輸入資料是按key進行聚集的一組資料。為了将key相同的資料聚在一起,Hadoop采用了基于排序的政策。由于各個MapTask已經實作對自己的處理結果進行了局部排序,是以,ReduceTask隻需對所有資料進行一次歸并排序即可。
(4)Reduce階段:reduce()函數将計算結果寫到HDFS上。
7、描述mapReduce有幾種排序及排序發生的階段(☆☆☆☆☆)1)排序的分類:
(1)部分排序:
MapReduce根據輸入記錄的鍵對資料集排序。保證輸出的每個檔案内部排序。
(2)全排序:
如何用Hadoop産生一個全局排序的檔案?最簡單的方法是使用一個分區。但該方法在處理大型檔案時效率極低,因為一台機器必須處理所有輸出檔案,進而完全喪失了MapReduce所提供的并行架構。
替代方案:首先建立一系列排好序的檔案;其次,串聯這些檔案;最後,生成一個全局排序的檔案。主要思路是使用一個分區來描述輸出的全局排序。例如:可以為待分析檔案建立3個分區,在第一分區中,記錄的單詞首字母a-g,第二分區記錄單詞首字母h-n, 第三分區記錄單詞首字母o-z。
(3)輔助排序:(GroupingComparator分組)
Mapreduce架構在記錄到達reducer之前按鍵對記錄排序,但鍵所對應的值并沒有被排序。甚至在不同的執行輪次中,這些值的排序也不固定,因為它們來自不同的map任務且這些map任務在不同輪次中完成時間各不相同。一般來說,大多數MapReduce程式會避免讓reduce函數依賴于值的排序。但是,有時也需要通過特定的方法對鍵進行排序和分組等以實作對值的排序。
(4)二次排序:
在自定義排序過程中,如果compareTo中的判斷條件為兩個即為二次排序。
2)自定義排序WritableComparable
bean對象實作WritableComparable接口重寫compareTo方法,就可以實作排序
@Override
public int compareTo(FlowBean o) {
// 倒序排列,從大到小
return this.sumFlow > o.getSumFlow() ? -1 : 1;
}
3)排序發生的階段:
(1)一個是在map side發生在spill後partition前。
(2)一個是在reduce side發生在copy後 reduce前。
8、描述mapReduce中shuffle階段的工作流程,如何優化shuffle階段(☆☆☆☆☆)分區,排序,溢寫,拷貝到對應reduce機器上,增加combiner,壓縮溢寫的檔案。
9、描述mapReduce中combiner的作用是什麼,一般使用情景,哪些情況不需要,及和reduce的差別?1)Combiner的意義就是對每一個maptask的輸出進行局部彙總,以減小網絡傳輸量。
2)Combiner能夠應用的前提是不能影響最終的業務邏輯,而且,Combiner的輸出kv應該跟reducer的輸入kv類型要對應起來。
3)Combiner和reducer的差別在于運作的位置。
Combiner是在每一個maptask所在的節點運作;
Reducer是接收全局所有Mapper的輸出結果。
如果沒有自定義的 partitioning,則預設的 partition 算法,即根據每一條資料的 key 的 hashcode 值摸運算(%)reduce 的數量,得到的數字就是“分區号“。
11、MapReduce 出現單點負載多大,怎麼負載平衡? (☆☆☆☆☆)通過Partitioner實作
12、MapReduce 怎麼實作 TopN? (☆☆☆☆☆)可以自定義groupingcomparator,對結果進行最大值排序,然後再reduce輸出時,控制隻輸出前n個數。就達到了topn輸出的目的。
13、Hadoop的緩存機制(Distributedcache)(☆☆☆☆☆)分布式緩存一個最重要的應用就是在進行join操作的時候,如果一個表很大,另一個表很小,我們就可以将這個小表進行廣播處理,即每個計算節點上都存一份,然後進行map端的連接配接操作,經過我的實驗驗證,這種情況下處理效率大大高于一般的reduce端join,廣播處理就運用到了分布式緩存的技術。
DistributedCache将拷貝緩存的檔案到Slave節點在任何Job在節點上執行之前,檔案在每個Job中隻會被拷貝一次,緩存的歸檔檔案會被在Slave節點中解壓縮。将本地檔案複制到HDFS中去,接着Client會通過addCacheFile() 和addCacheArchive()方法告訴DistributedCache在HDFS中的位置。當檔案存放到文地時,JobClient同樣獲得DistributedCache來建立符号連結,其形式為檔案的URI加fragment辨別。當使用者需要獲得緩存中所有有效檔案的清單時,JobConf 的方法 getLocalCacheFiles() 和getLocalArchives()都傳回一個指向本地檔案路徑對象數組。
14、如何使用mapReduce實作兩個表的join?(☆☆☆☆☆)1)reduce side join : 在map階段,map函數同時讀取兩個檔案File1和File2,為了區分兩種來源的key/value資料對,對每條資料打一個标簽(tag),比如:tag=0 表示來自檔案File1,tag=2 表示來自檔案File2。
2)map side join : Map side join 是針對以下場景進行的優化:兩個待連接配接表中,有一個表非常大,而另一個表非常小,以至于小表可以直接存放到記憶體中。這樣,我們可以将小表複制多份,讓每個map task 記憶體中存在一份(比如存放到hash table 中),然後隻掃描大表:對于大表中的每一條記錄key/value,在hash table 中查找是否有相同的key 的記錄,如果有,則連接配接後輸出即可。
15、什麼樣的計算不能用mr來提速?1)資料量很小。
2)繁雜的小檔案。
3)索引是更好的存取機制的時候。
4)事務處理。
5)隻有一台機器的時候。
16、ETL是哪三個單詞的縮寫Extraction-Transformation-Loading的縮寫,中文名稱為資料提取、轉換和加載。
面試題總結GitHub位址:
大資料學習總結github.com
歡迎加入知乎大資料學習圈子:
大資料學習 - 知乎www.zhihu.com