[Spark][Python]DataFrame的左右連接配接例子

2017-12-12 23:50:00

[Spark][Python]DataFrame的左右連接配接例子

$ hdfs dfs -cat people.json

$ hdfs dfs -cat pcodes.json

$pyspark

sqlContext = HiveContext(sc)

peopleDF = sqlContext.read.json("people.json")

peopleDF.limit(5).show()

[Spark][Python]DataFrame的左右連接配接例子

[Spark][Python]DataFrame的左右連接配接例子

pcodesDF = sqlContext.read.json("pcodes.json")

pcodesDF.limit(5).show()

[Spark][Python]DataFrame的左右連接配接例子

[Spark][Python]DataFrame的左右連接配接例子

mydf000 = peopleDF.join(pcodesDF,"pcode")

mydf000.limit(5).show()

[Spark][Python]DataFrame的左右連接配接例子

[Spark][Python]DataFrame的左右連接配接例子

mydf001=peopleDF.join(pcodesDF,"pcode","leftsemi")

mydf001.limit(5).show()

[Spark][Python]DataFrame的左右連接配接例子

[Spark][Python]DataFrame的左右連接配接例子

mydf002=peopleDF.join(pcodesDF,"pcode","left_outer")

mydf002.limit(5).show()

[Spark][Python]DataFrame的左右連接配接例子

[Spark][Python]DataFrame的左右連接配接例子

mydf003=peopleDF.join(pcodesDF,"pcode","right_outer")

mydf003.limit(5).show()

[Spark][Python]DataFrame的左右連接配接例子

[Spark][Python]DataFrame的左右連接配接例子

<a></a>

本文轉自健哥的資料花園部落格園部落格，原文連結：http://www.cnblogs.com/gaojian/p/7633001.html，如需轉載請自行聯系原作者

分布式計算 spark Python python django架構跨域 python抓取網頁 python argparse使用 python meta搜尋引擎 data python資料

上一篇: [Step By Step]SAP HANA PAL多元線性回歸預測分析Linear Regression執行個體LRREGRESSION（模型）

下一篇: [Oracle]OWI學習筆記--001

繼續閱讀