用sqoop将MySQL的資料導入到Hive分區表中

2023-05-18 05:02:42

在工作中，我們經常遇到的業務就是要将MySQL每天差生的生産資料定時導入到Hive的分區表中，然後根據分區表中的資料進行“數倉建設”，各種資料處理。

那麼怎麼運用sqoop将MySQL的資料導入到hive的分區表中呐?

首先，不能再用--hive-table, --hive-partition-key, --hive-partition-value這三個參數。因為這樣隻能向單個分區導入資料，無法指定多個分區。

其實我采用的方法是分兩步進行的：

1、用sqoop将MySQL的資料導入HDFS上，注意HDFS存儲的路徑檔案夾以分區的字段資料命名。

比如：

sqoop import --connect  jdbc:mysql://localhost:3306/track_log \
--username root --password 123456  --table track_log18 \
 -m 1  \
--target-dir /user/hive/warehouse/track_log/ds=20190622 
--fields-terminated-by '\t'  //這個也很重要，否則查詢一列時會傳回多列

這樣的話，資料導入到了HDFS中，

2、建立分區并且将資料加載進去：

alter table track_log add partition(ds='20190622') 
location '/user/hive/warehouse/track_log/ds=20190622';

這樣分區的資料就加載進去了。

注意點：這兩步之間最好插入一些檢驗的步驟。

比如說：

在1之前，檢驗分區是否已經存在，存在的話，直接删掉（注意會删除資料，但是在第二步會将資料再次加載，這樣根據業務來說，是沒有問題的）

在2之前，檢驗一下HDFS的目錄是否存在，存在再執行第2步。

用sqoop将MySQL的資料導入到Hive分區表中

繼續閱讀

學大資料是先學java還是先學python?強烈推薦閱讀下列文章

大資料架構體系與Hadoop生态系統

大資料入門發展方向

使用ElasticSearch在bulk導入json資料時，The bulk request must be terminated by a newline [\n]問題重制解決曆程

如何開始學習大資料

Zookeeper Java 用戶端 ——Apache CuratorZookeeper Java 用戶端 ——Apache Curator

flume上傳hdfs的配置檔案

Flume拓撲結構Flume的拓撲結構有以下四種

基于【八股文】格式編寫WordCount程式

03-zookeeper基礎1. zookeeper用戶端指令操作2. zookeeper内部原理3.API操作

【大資料技術】從單體到Flink：一文讀懂資料架構的演變

大資料學習之 hbase1.3.1安裝1.準備工作，啟動ZK和hadoop2.解壓縮habse3.修改配置檔案4.配置環境變量5.HBase遠端scp到其他叢集6.啟動之前，檢視hadoop和ZK7.啟動hbase，在hadoop和ZK上增加了hbase8.檢視hbase頁面

Hive視窗函數Over和排序函數Rank

BigData1：初識Hadoop

那些說35歲就要失業的人，你可能已經被00後拍翻在了沙灘上----誰說這一代青年是廢掉的一代！（建議收藏一鍵三連）