pyspark读取csv文件创建DataFrame

2023-05-27 15:30:09

mark一下，感谢作者分享！

方法一：用pandas辅助

from pyspark import SparkContext

from pyspark.sql import SQLContext

import pandas as pd

sc = SparkContext()

sqlContext=SQLContext(sc)

df=pd.read_csv(r’game-clicks.csv’)

sdf=sqlc.createDataFrame(df)

文件不大的情况下可以

方法二：纯spark

from pyspark import SparkContext

from pyspark.sql import SQLContext

sc = SparkContext()

sqlContext = SQLContext(sc)

sqlContext.read.format(‘com.databricks.spark.csv’).options(header=’true’, inferschema=’true’).load(‘game-clicks.csv’)

需要com.databricks.spark.csv环境

方法三：pyspark.sql import SparkSession（spark 2.X）

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName(‘dataFrameApply’).getOrCreate()

filepath = “main.csv”

tttt = spark.read.csv(filepath,header=’true’,inferSchema=’true’,sep=’,’)

print(tttt)

有时候因为数据格式和编码的问题会出错

检查csv文件是否标准

filepath = “main_amount.csv”

main_amount = sc.textFile(filepath)

print(main_amount.count())

header = main_amount.first()

main_amount_data = main_amount.filter(lambda lines: lines != header)

header_columns = header.split(‘,’)

main_amount_data = main_amount_data.map(lambda line: line.split(‘,’))

print(len(header_columns)) 输出12列

//print(main_amount_data.take(2))

fields_len = main_amount_data.map(lambda fields: len(fields)).countByValue()

print(fields_len)

输出：{12: 64200, 13: 11310, 15: 2928, 14: 218, 17: 6, 18: 4, 16: 3}

发现列数不一致,并且部分数据行超过header_columns。

1、用pandas读将不会自动分割‘，’

2、com.databricks.spark.csv和SparkSession下read.csv会报错

pyspark读取csv文件创建DataFrame

继续阅读

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入