接上 大資料ACP總結(一)
剛剛順利苟過了阿裡ACP, 主要複習政策是多次熟悉阿裡雲提供大資料官方教程,官方文檔,并對核心環境做總結。
社群關于複習提綱的内容以及比較詳細了,這裡梳理下存在關鍵細節的考點,也給大家一些參考。
Tunnel :
核心指令
Usage: tunnel <subcommand> [options] [args]
Type 'tunnel help <subcommand>' for help on a specific subcommand.
Available subcommands:
upload (u)
download (d)
resume (r)
show (s)
purge (p)
help (h)
Q:是否支援 ascii 字元的分隔符?
A:指令行方式不支援,配置檔案可以用十六進制表示。如 u000A,表示回車。
Q:檔案大小是否有限制?
A:檔案大小沒有限制,但一次 upload 無法超過 24 小時,可以根據實際上傳速度和時間來估算能夠上傳的資料量。
Q:記錄大小是否有限制?
A:記錄大小不能超過 200M。
Q:是否要使用壓縮?
A:預設會使用壓縮,如果帶寬允許的情況下,可以關掉壓縮。
Q:同一個表或 partition 是否可以并行上傳?
A:可以。
Q:是否支援不同字元編碼?
A:支援不同的編碼格式參數,帶 bom 辨別檔案不需要指定編碼。
Q:導入後的髒資料怎麼處理?
A:導入結束後,如果有髒資料可以通過 tunnel show bad [sessionid] 檢視髒資料。
Q:上傳下載下傳的檔案路徑是否可以有空格?
A:可以有空格,參數需要用雙引号括起來。
Q:為什麼會出現亂碼?
A:可能是上傳檔案的字元編碼和工具指定的編碼不符。
Q:導入資料最後一列為什麼多出r符号?
A:windows 的換行符是rn,macosx 和 linux 的換行符是n,tunnel 指令使用系統換行符作為預設列分隔符,是以從 macosx 或 linux 上傳 windows 編輯儲存的檔案會把r作為資料内容導進去。
Q:Tunnel 下載下傳/上傳速度正常速度範圍是多少?
A:Tunnel 下載下傳上傳,受網絡因素影響較大,正常網絡情況下速度範圍在 1MB/s-20MB/s 區間内。
Q:Tunnel 域名是什麼?
A:不同 region 對應不同的域名,詳情請參見 通路域名和資料中心。
Q:無法上傳/下載下傳怎麼辦?
A:找到配置中配置的 tunnel 域名,通過 curl -i 域名例如 curl -i
http://dt.odps.aliyun.com測試網絡是否連通,若無法連通請檢查機器網絡或更換為正确的域名。
Q:上傳/下載下傳速度緩慢怎麼辦?
A:您可以從以下幾方面進行檢查:
檢查機器網絡狀态,ping tunnel_endpoint 域名延遲是否異常。
Q:Tunnel 需注意的分隔符問題有哪些?
A:Tunnel 需要注意的分隔符問題,如下所示:
列分隔符 fd 不能包含行分隔符 rd。
行分隔符 rd。
預設值: rn (windows) 和 n(linux)。
上傳開始的時候會列印提示資訊,告知本次上傳所使用的行分隔符(0.21.0 版本及以後)供使用者檢視和确認。
列分隔符 fd。
預設值:, (逗号)。
Mapreduce:

- mapreduce 采用了大量便宜低成本的機器支援橫向擴充,并非失效是常态
- bdp.system.bizdate 為格式為目前前一天 格式YYYYMMDD
- bdp.system.cycdate 為排程執行個體定時運作時間
- 一個 map 的輸出結果可能會被配置設定到多個 reduce 上去
- 一個 reduce 的輸入資料可能來自于多個 map 的輸出
- 一個 MR 處理可以不包括任何 map