天天看點

hive 資料源、yarn 叢集測試、SQL 分組取 topN3| 學習筆記

開發者學堂課程【大資料實時計算架構 Spark 快速入門:hive 資料源、yarn 叢集測試、SQL 分組取 topN3 】學習筆記,與課程緊密聯系,讓使用者快速學習知識。

課程位址:

https://developer.aliyun.com/learning/course/100/detail/1716

hive 資料源、yarn 叢集測試、SQL 分組取 topN3

内容介紹:

一、兩個方法

“no files matching” 這個沒有找到txt這個檔案,是因為我們隻把 txt 檔案弄到node21 上面去了。

兩個方法:

1、把那兩個檔案都弄到裡面去,

2、可以改一個代碼既然 hive 裡面已經有一個 table 了,那就不用再弄了

可以用第一招,如果用 class 模式的話,則要繼續跟蹤頁面,需要不斷重新整理頁面,跟着日志。如果用 spark Standalone 來執行的話,他裡面可以有哪些選項,則是——supervise ,——kill submissicm ——statue surmission id 來檢視進度,

——supervise 加就是 driver 挂了就會重示,driver 挂了,加參數就會自動起一個 driver 那麼在這個地方 soark standlone and mesos only裡面有一個executor_core 看有多少個現成。

下面則是關于 yarn only 的,再往下就是 driver 的記憶體大小,已經executor_memory 的大小,executor 則是一個G的記憶體, worker 配置一個 G ,最多是三個 executor. 第一個 executer 是 driver 用了, executor_cores 的數量也會決定你可以啟動的 worker ,記憶體會管理他的上限,顯存也會管理他的上限,這個看機器裡面有多少個先吃完,  如果以後用yarn來跑的話, yarn 則有一個——executors 直接配上用來跑應用程式,那關于這 yarn ,則有多少 executor 來執行,接下來則等待報錯。

在公司裡面要麼是 executor 要麼是 yarn ,保證在每個裡面送出 application ,不能同時起兩個。