1.PySpark的搭建
https://blog.csdn.net/qq_36330643/article/details/78429109
PySpark 是 Spark 為 Python 開發者提供的 API ,位于 $SPARK_HOME/bin 目錄,其依賴于 Py4J。
在Pycharm中配置使用spark
1.在Pycharm中建立python項目,解釋器使用的是python3.4
File=>Settings切換到Settings界面,點選Project:pyspark1中的“Project Structure“,進入下面界面,再點選“+Add Content Root”按鈕,進入下圖中間界面,選中/apps/spark/python/lib目錄中的py4j-0.9-src.zip、pyspark.zip,最後點選OK。
.配置運作環境。在pychram中點選Run=>Edit Configurations切換到下面界面。
STEP1:配置預設的環境變量,在左側選擇(如圖所示的紅框)Python;
STEP2:點選Environment那裡的…省略号;
STEP3:點選+号新增環境變量;
STEP4:新增兩個環境變量,對應内容,第一個Name是SPARK_HOME,其Value是你對應安裝SPARK的絕對路徑(注,不包括bin),第二個Name是PYTHONPATH,其Value是”/apps/spark/python”.
在項目中建立python檔案,然後輸入from pyspark import SparkContext,無紅線,表示spark配置正确。
此時就可以編寫自己的基于Pyspark環境的python檔案,并運作了。