hive 資料源、yarn 叢集測試、SQL 分組取 topN3| 學習筆記

2021-12-10 23:50:00

開發者學堂課程【大資料實時計算架構 Spark 快速入門：hive 資料源、yarn 叢集測試、SQL 分組取 topN3 】學習筆記，與課程緊密聯系，讓使用者快速學習知識。

課程位址：

https://developer.aliyun.com/learning/course/100/detail/1716

hive 資料源、yarn 叢集測試、SQL 分組取 topN3

内容介紹：

一、兩個方法

“no files matching” 這個沒有找到txt這個檔案，是因為我們隻把 txt 檔案弄到node21 上面去了。

兩個方法：

1、把那兩個檔案都弄到裡面去，

2、可以改一個代碼既然 hive 裡面已經有一個 table 了，那就不用再弄了

可以用第一招，如果用 class 模式的話，則要繼續跟蹤頁面，需要不斷重新整理頁面，跟着日志。如果用 spark Standalone 來執行的話，他裡面可以有哪些選項，則是——supervise ，——kill submissicm ——statue surmission id 來檢視進度，

——supervise 加就是 driver 挂了就會重示，driver 挂了，加參數就會自動起一個 driver 那麼在這個地方 soark standlone and mesos only裡面有一個executor_core 看有多少個現成。

下面則是關于 yarn only 的，再往下就是 driver 的記憶體大小，已經executor_memory 的大小，executor 則是一個G的記憶體， worker 配置一個 G ，最多是三個 executor. 第一個 executer 是 driver 用了， executor_cores 的數量也會決定你可以啟動的 worker ，記憶體會管理他的上限，顯存也會管理他的上限，這個看機器裡面有多少個先吃完，如果以後用yarn來跑的話， yarn 則有一個——executors 直接配上用來跑應用程式，那關于這 yarn ，則有多少 executor 來執行，接下來則等待報錯。

在公司裡面要麼是 executor 要麼是 yarn ，保證在每個裡面送出 application ，不能同時起兩個。

hive 資料源、yarn 叢集測試、SQL 分組取 topN3| 學習筆記

hive 資料源、yarn 叢集測試、SQL 分組取 topN3

繼續閱讀

Nacos 2.0 更新前後性能對比壓測

JAVA高效程式設計指南

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

關于SQL語言

SQL語言基礎：常用的資料查詢語句

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

淺談企業活動中進行資料分析的重要性

neo4j之cypher使用文檔

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark