【大資料面試】回顧

2022-05-27 17:50:26

一、Linux

常用的5個進階指令：檢視端口号netstat、檢視程序ps、檢視磁盤使用情況iotop

二、shell

1、shell的工具：awk、sed、sort、cut

2、寫過哪些腳本？

群起腳本、數倉與MySQL的資料導入導出、數倉不同層級之間的導入

三、Hadoop

1、入門

（1）常見端口号：HDFS50070、曆史19888

（2）安裝配置檔案8個，site、sh（core-site.xml、slave）

（3）不同版本（1.x和2.x的差別）：yarn、高可用HA

2、HDFS

（1）讀寫資料流程，client-請求-nn-中繼資料-dn

（2）小檔案問題

（3）預設有多少副本

（4）塊大小有多大

3、MapReduce

（1）Shuffle及其優化、壓縮

（2）流程

4、Yarn

（1）Yarn的工作機制

（2）Yarn的排程器

四、Zookeeper

1、選舉機制

2、常用指令

3、工作經驗-安裝多少台

五、Flume三件事

1、Flume的組成

（1）source-taildir source【不問問題說答案】

為什麼選它

哪個版本産生的

沒産生之前是怎麼實作的斷點續傳

挂掉之後會産生什麼現象

資料重複怎麼辦

是否支援遞歸周遊檔案夾

（2）channel

有幾種channel

各種channel的優缺點

什麼場景下使用

（3）hdfs sink

存在什麼問題

怎麼解決（時間、大小、event個數）

（4）事務

put

take

2、三個器

（1）攔截器

ETL做什麼事，為什麼這麼做

分類型攔截器做什麼事，分幾類，為什麼這麼分

自定義攔截器的步驟

是否可以取消（涉及好處和壞處）

（2）選擇器

有幾種選擇器

項目中用哪種

（3）監控器

使用監控器監控什麼

出現性能問題怎麼辦（調記憶體）

3、優化

（1）file channel多目錄

（2）hdfs小檔案

（3）螢幕

（4）flume挂了怎麼辦

六、kafka-24件事

1、基本資訊/正常問題-架構

（1）組成：p b c zk（無生産者資訊）

（2）安裝多少台（2n+1=3），n是生産者峰值生産速率*副本/100

（3）速率：壓力測試

（4）副本數量2-3、好處壞處

（5）儲存多久

（6）資料量計算？100萬日活 1K+條/s 1M/S

（7）分區數=總吞吐量/min(tp,tc)=3-10

（8）分區配置設定政策

（9）ISR隊列

（10）有多少topic

（11）是否做監控器

2、挂了

3、丢失資料

ack

4、重複資料

幂等性

事務

ack=-1

5、資料積壓

自身：分區數

朋友：批次拉取大小

6、優化

server.properties：線程數、刷寫時間、副本、儲存時間

producer：配置壓縮

start.sh：記憶體調整，預設1G，調整到4-6G

7、其他

為什麼讀寫效率比較高（分布式、分區、随機讀寫、零拷貝技術）

删除政策：直接or壓縮

傳輸大小：預設1M，超過會卡死

【大資料面試】回顧

繼續閱讀

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

PHP輔導代做程式設計：CS353 Database System

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

詳解STM32單片機的堆棧