如何高效的閱讀hadoop源代碼？

============

首先，不得不說，hadoop發展到現在這個階段，代碼已經變得非常龐大臃腫，如果你直接閱讀最新版本的源代碼，難度比較大，需要足夠的耐心和時間，是以，如果你覺得認真一次，認真閱讀一次hadoop源代碼，一定要有足夠的心理準備和時間預期。

其次，需要注意，閱讀hadoop源代碼的效率，因人而異，如果你有足夠的分布式系統知識儲備，看過類似的系統，則能夠很快地讀它的源代碼進行通讀，并快速切入你最關注的局部細節，比如你之前看過某個分布式資料庫的源代碼，對分布式系統的網絡通信子產品，排程子產品等有一定了解，這對閱讀hadoop源代碼有極大幫助；如果你是一個初學者，對hadoop一無所知，隻了解一些java文法，那閱讀hadoop源代碼是極具挑戰的一件事情，尤其是從無到開始入門的過程，是極度煎熬和困惑的，這時候需要你在閱讀代碼過程中，不斷補充缺乏的相關知識（比如rpc，nio，設計模式等），循序漸進，直到入門。

接下來進入主題，說一下閱讀源代碼的個人經驗。由于我也是從無到入門，再到修改源代碼，逐漸過渡的，是以，對于很多人而言，具有借鑒意義。

第一個階段：學習hadoop基本使用和基本原理，從應用角度對hadoop進行了解和學習

這是第一個階段，你開始嘗試使用hadoop，從應用層面，對hadoop有一定了解，比如你可以使用hadoop shell對hdfs進行操作，使用hdfs api編寫一些程式上傳，下載下傳檔案；使用mapreduce api編寫一個資料處理程式。一旦你對hadoop的基本使用方法比較熟悉了，接下來可以嘗試了解它的内部原理，注意，不需要通過閱讀源代碼了解内部原理，隻需看一些部落格，書籍，比如《hadoop權威指南》，對于hdfs而言，你應該知道它的基本架構以及各個子產品的功能；對于mapreduce而言，你應該知道其具體的工作流程，知道partition，shuffle，sort等工作原理，可以自己在紙上完整個畫完mapreduce的流程，越詳細越好。

在這個階段，建議你多看一些知名部落格，多讀讀《hadoop權威指南》（可選擇性看相關的幾章）。如果你有實際項目驅動，那是再好不過了，理論聯系實際是最好的hadoop學習方法；如果你沒有項目驅動，那建議你不要自己一個人悶頭學，多跟别人交流，多主動給别人講講，最好的學習方式還是“講給别人聽”。

第二個階段：從無到入門，開始閱讀hadoop源代碼

這個階段是最困苦和漫長的，尤其對于那些沒有任何分布式經驗的人。很多人這個階段沒有走完，就放棄了，最後停留在hadoop應用層面。

這個階段，第一件要做的事情是，選擇一個hadoop元件。如果你對分布式存儲感興趣，那麼你可以選擇hdfs，如果你讀分布式計算感興趣，你可以選擇mapreduce，如果你對資源管理系統感興趣，你可以選擇yarn。

選擇好系統後，接下來的經曆是最困苦的。當你把hadoop源代碼導入eclipse或intellij idea，沏上一杯茶，開始準備優哉遊哉地看hadoop源代碼時，你懵逼了：你展開那數不盡的package和class，覺得無從下手，好不容易找到了入口點，然後你屁颠屁颠地通過eclipse的查找引用功能，順着類的調用關系一層層找下去，最後迷失在了代碼的海洋中，如同你在不盡的壓棧，最後棧溢出了，你忘記在最初的位置。很多人經曆過上面的過程，最後沒有順利逃出來，而放棄。

如果你正在經曆這個過程，我的經驗如下：首先，你要摸清hadoop的代碼子產品，知道client，master，slave各自對應的子產品（hadoop中核心系統都是master/slave架構，非常類似），并在閱讀源代碼過程中，時刻謹記你目前閱讀的代碼屬于哪一個子產品，會在哪個元件中執行；之後你需要摸清各個元件的互動協定，也就是分布式中的rpc，這是hadoop自己實作的，你需要對hadoop

rpc的使用方式有所了解，然後看各子產品間的rpc protocol，到此，你把握了系統的骨架，這是接下來閱讀源代碼的基礎；接着，你要選擇一個子產品開始閱讀，我一般會選擇client，這個子產品相對簡單些，會給自己增加信心，為了在閱讀代碼過程中，不至于迷失自己，建議在紙上畫出類的調用關系，邊看邊畫，我記得我閱讀hadoop源代碼時，花了一疊紙。注意，看源代碼過程中，很容易煩躁不安，建議經常起來走走，不要把自己逼得太緊。

這個階段最終達到的目的，是對hadoop源代碼整體架構和局部的很多細節，有了一定的了解。比如你知道mapreduce scheduler是怎樣實作的，mapreduce shuffle過程中，map端做了哪些事情，reduce端做了哪些事情，是如何實作的，等等。這個階段完成後，當你遇到問題或者困惑點時，可以迅速地在hadoop源代碼中定位相關的類和具體的函數，通過閱讀源代碼解決問題，這時候，hadoop源代碼變成了你解決問題的參考書。

第三個階段：根據需求，修改源代碼。

這個階段，是驗證你閱讀源代碼成效的時候。你根據leader給你的需求，修改相關代碼完成功能子產品的開發。在修改源代碼過程中，你發現之前閱讀源代碼仍過于粗糙，這時候你再進一步深入閱讀相關代碼，彌補第二個階段中薄弱的部分。當然，很多人不需要經曆第三個階段，僅僅第二階段就夠了：一來能夠通過閱讀代碼解決自己長久以來的技術困惑，滿足自己的好奇心，二來從根源上解決解決自己遇到的各種問題。

這個階段，沒有太多的參考書籍或者部落格，多跟周圍的同僚交流，通過代碼review和測試，證明自己的正确性。

閱讀hadoop源代碼的目的不一定非是工作的需要，你可以把他看成一種修養，通過閱讀hadoop源代碼，加深自己對分布式系統的了解，培養自己踏實做事的心态。

原文位址：http://www.zhihu.com/question/29690410/answer/45588479

如何高效的閱讀hadoop源代碼？

繼續閱讀

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理