Pig安裝講解

Pig 簡介：

Pig 是 Apache 項目的一個子項目，Pig 提供了一個支援大規模資料分析的平台，Pig 突出的特點就是它的結構經得起大量并行任務的檢驗，使得它能夠處理大規模資料集

Pig 特點：

Pig 可簡化 MapReduce 任務的開發

Pig 可以看做 Hadoop 的用戶端軟體，可以連接配接到 Hadoop 叢集進行資料分析工作

Pig 友善不熟悉 Java 的使用者，使用一種較為簡便的類似 SQL 的面向資料流的語言 PigLatin 語言進行資料處理

PigLatin 可以進行排序，過濾，求和，分組，關聯等常用操作，還可以自定義函數，這是面向資料分析處理的輕量級腳本語言

Pig 可以看做是 PigLatin 到 MapReduce 的映射器

當Pig在MapReduce模式運作時，它将通路一個Hadoop叢集和HDFS的安裝位置。這時Pig将自動地對這個叢集進行配置設定和回收

Pig 的資料模式： relation(關系), bag(包), tuple(元組), field(字段，列)

relation（關系）：具有相同字段(列)的 tuple 稱為關系

bag(包)：與關系型資料庫中的表類似，包含多個 tuple，

tuple(元組)：相當于關系型資料庫中的行，與關系型資料庫不同的是，tuple 不要求每一行具有相同的結構

field(字段，列)：與關系型資料庫中的列相似，不同的是，field 中可以嵌套表，而關系型資料庫中的列中不可以嵌套表

Pig 的安裝和配置：

安裝：解壓安裝包并添加環境變量即可

tar -zxvf pig-0.17.0.tar.gz -C ~/app

vim ~/.bash_profix

PIG_HOME= PIG_HOME=/app/pig-0.17.0

export PIG_HOME

PATH=$PIG_HOME/bin:$PATH

export PATH

Pig 有兩種運作模式：本地模式：操作 Linux 檔案

啟動方式： pig -x local

叢集模式: 連結到 HDFS

PIG_CLASSPATH=/app/hadoop-2.7.3/etc/hadoop

export PIG_CLASSPATH

啟動指令： pig

Pig 操作 Linux 指令：

sh 後面跟linux 指令可以直接對 linux 中的檔案進行操作

ls cd cat mkdir pwd 操作 HDFS

copyFromLocal 從linux 系統 copy 檔案到 HDFS

copyToLocal 從 HDFS copy 檔案到 linux 系統

PigLatin 語句：

---> 需要使用 Hadoop 的 HistoryServer

mr-jobhistory-daemon.sh start historyserver

---> 常用的 PigLatin 語句

load 加載資料到 bag (表)

foreach 相當于循環，對 bag 每一條資料周遊

filter 相當于 where

group by 分組

join 連接配接

generate 提取列

union/intersect 集合運算

輸出：dump 直接列印到螢幕上

· store 輸出到 HDFS 上

舉例: 7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30

加載員工資料到bag(表)

emp = load '/input/table/emp.csv' using PigStorage(',')

as (empno:int, ename:chararray, job:chararray, mgr:int, hiredate:chararray, sal:int, comm:int, deptno:int );

dept = load '/scott/dept.csv' using PigStorage(',') as(deptno:int,dname:chararray,loc:chararray);

檢視表結構： describe emp;

查詢員工資訊：員工号，姓名，薪水

SQL語句： select empno, ename, sal from emp ;

PL 語句： emp = foreach emp generate empno, ename, sal;

輸出到螢幕上： dump emp;

查詢員工資訊，按照月薪排序：

SQL 語句：select * from emp order by sal ;

PL 語句：emp = order emp by sal ;

分組：求每個部門工資最高值

SQL語句： select deptno, max(sql) from emp group by deptno ;

PL 語句：需要分兩部

1. 分組

emp_group = group emp by deptno ;

2. 求每個部門最大值

max_sal = foreach emp_group generate group, MAX(emp.sal)

查詢 10 号部門的員工：

SQL 語句： select * from emp where deptno = 10 ;

PL 語句： deptno_10 = filter emp by deptno==10 ;

多表查詢：員工姓名，部門名稱

SQL 語句： select e.ename d.dname from emp e, dept d where e.ename=d.dname;

PL 語句：分兩部實作

1. 将兩個表中的兩個字段提取出來放入一張表中

newtable = join dept by deptno, emp by ename

2. 周遊提取出來的表，将員工表的員工姓名，部門表的部門名稱提取出來

table = foreach newtable generate dept:: dname, emp:: ename

集合運算：關系型資料庫 Oracle ：參與集合運算的各個集合必須列數相同且類型一緻

查詢 10 号和 20 号部門的員工

SQL 語句： select * from emp where deptno=10

union select * from emp where deptno=20;

PL 語句：emp10 = filter emp by deptno==10;

emp20 = filter dept by deptno==20;

emp10_20 = union emp10, emp20;

使用PL實作WordCount：

① 加載資料

mydata = load '/data/data.txt' as (line:chararray);

② 将字元串分割成單詞

words = foreach mydata generate flatten(TOKENIZE(line)) as word;

③ 對單詞進行分組

grpd = group words by word;

④ 統計每組中單詞數量

cntd = foreach grpd generate group,COUNT(words);

⑤ 列印結果

dump cntd;

本文轉自菜鳥的征程 51CTO部落格，原文連結:

http://blog.51cto.com/songqinglong/2059515

Pig安裝講解

繼續閱讀

MySQL的4種隔離級别？出現問題

User Defined Hadoop DataType

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

Ambari介紹和架構原理

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

sqlServer根據經緯查距離

SequoiaDB巨杉資料庫C++驅動概述

Oracle 批量查詢傳入List 傳回List