天天看點

PySpark在Pycharm中配置使用spark

1.PySpark的搭建

https://blog.csdn.net/qq_36330643/article/details/78429109

PySpark 是 Spark 為 Python 開發者提供的 API ,位于 $SPARK_HOME/bin 目錄,其依賴于 Py4J。

在Pycharm中配置使用spark

1.在Pycharm中建立python項目,解釋器使用的是python3.4

File=>Settings切換到Settings界面,點選Project:pyspark1中的“Project Structure“,進入下面界面,再點選“+Add Content Root”按鈕,進入下圖中間界面,選中/apps/spark/python/lib目錄中的py4j-0.9-src.zip、pyspark.zip,最後點選OK。

PySpark在Pycharm中配置使用spark

.配置運作環境。在pychram中點選Run=>Edit Configurations切換到下面界面。

STEP1:配置預設的環境變量,在左側選擇(如圖所示的紅框)Python;

STEP2:點選Environment那裡的…省略号;

STEP3:點選+号新增環境變量;

STEP4:新增兩個環境變量,對應内容,第一個Name是SPARK_HOME,其Value是你對應安裝SPARK的絕對路徑(注,不包括bin),第二個Name是PYTHONPATH,其Value是”/apps/spark/python”.

PySpark在Pycharm中配置使用spark

在項目中建立python檔案,然後輸入from pyspark import SparkContext,無紅線,表示spark配置正确。

此時就可以編寫自己的基于Pyspark環境的python檔案,并運作了。

繼續閱讀