天天看點

【大資料面試】回顧

一、Linux

常用的5個進階指令:檢視端口号netstat、檢視程序ps、檢視磁盤使用情況iotop

二、shell

1、shell的工具:awk、sed、sort、cut

2、寫過哪些腳本?

群起腳本、數倉與MySQL的資料導入導出、數倉不同層級之間的導入

三、Hadoop

1、入門

(1)常見端口号:HDFS50070、曆史19888

(2)安裝配置檔案8個,site、sh(core-site.xml、slave)

(3)不同版本(1.x和2.x的差別):yarn、高可用HA

2、HDFS

(1)讀寫資料流程,client-請求-nn-中繼資料-dn

(2)小檔案問題

(3)預設有多少副本

(4)塊大小有多大

3、MapReduce

(1)Shuffle及其優化、壓縮

(2)流程

4、Yarn

(1)Yarn的工作機制

(2)Yarn的排程器

四、Zookeeper

1、選舉機制

2、常用指令

3、工作經驗-安裝多少台

五、Flume三件事

1、Flume的組成

(1)source-taildir source【不問問題說答案】

為什麼選它

哪個版本産生的

沒産生之前是怎麼實作的斷點續傳

挂掉之後會産生什麼現象

資料重複怎麼辦

是否支援遞歸周遊檔案夾

(2)channel

有幾種channel

各種channel的優缺點

什麼場景下使用

(3)hdfs sink

存在什麼問題

怎麼解決(時間、大小、event個數)

(4)事務

put

take

2、三個器

(1)攔截器

ETL做什麼事,為什麼這麼做

分類型攔截器做什麼事,分幾類,為什麼這麼分

自定義攔截器的步驟

是否可以取消(涉及好處和壞處)

(2)選擇器

有幾種選擇器

項目中用哪種

(3)監控器

使用監控器監控什麼

出現性能問題怎麼辦(調記憶體)

3、優化

(1)file channel多目錄

(2)hdfs小檔案

(3)螢幕

(4)flume挂了怎麼辦

六、kafka-24件事

1、基本資訊/正常問題-架構

(1)組成:p b c zk(無生産者資訊)

(2)安裝多少台(2n+1=3),n是生産者峰值生産速率*副本/100

(3)速率:壓力測試

(4)副本數量2-3、好處壞處

(5)儲存多久

(6)資料量計算?100萬日活   1K+條/s  1M/S

(7)分區數=總吞吐量/min(tp,tc)=3-10

(8)分區配置設定政策

(9)ISR隊列

(10)有多少topic

(11)是否做監控器

2、挂了

3、丢失資料

ack

4、重複資料

幂等性

事務

ack=-1

5、資料積壓

自身:分區數

朋友:批次拉取大小

6、優化

server.properties:線程數、刷寫時間、副本、儲存時間

producer:配置壓縮

start.sh:記憶體調整,預設1G,調整到4-6G

7、其他

為什麼讀寫效率比較高(分布式、分區、随機讀寫、零拷貝技術)

删除政策:直接or壓縮

傳輸大小:預設1M,超過會卡死

繼續閱讀