Spark讀取檔案如何區分HDFS檔案和本地檔案

2023-04-23 05:41:52

在Hadoop叢集上配置的Spark如果直接讀取檔案預設的是讀取HDFS上的檔案，那麼如果想要讀取本地的檔案就不能直接寫還需要說明如下：

from pyspark.sql import SparkSession

def CreateSparkContext():
    # 建構SparkSession執行個體對象
    spark = SparkSession.builder \
        .appName("SparkSessionExample") \
        .master("local") \
        .getOrCreate()
    # 擷取SparkContext執行個體對象
    sc = spark.sparkContext
    return sc

if __name__ == "__main__":
    # 擷取SparkContext執行個體對象
    sc = CreateSparkContext()
    # 讀取本地資料到RDD
    raw_ratings_rdd = read_file_to_RDD(sc, "file:///opt/lin/data/train/result.txt")

那麼如果不加file://那麼讀取的就是hdfs上的檔案。

Spark讀取檔案如何區分HDFS檔案和本地檔案

繼續閱讀

HDFS-2.hdfs shell操作help文檔

HDFS-常用API操作

将資料導入Hive資料庫中，使用python連結Hive讀取資料庫，轉化成pandas的dataframe

oozie HDFS demo

【hadoop fs指令】if，then，else，fi測試

用寫sql的思路寫 pyspark

初識hadoop--（2）通過java操作hdfs

Hive（二）--分區分桶，内部表外部表

MapReduce的輸入與輸出類型詳解

flume采集檔案到hdfs

大資料開發之Flume實踐

flume實時寫資料到HA模式下的hdfs

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

《Hive權威指南》第八章：HiveQL索引8 HiveQL：索引

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount