pyspark dataframe存hive表

2023-06-29 07:56:51

##pyspark dataframez存hive表

需要写入hive表的dataframe为df_write,需要写入名为course_table的hive表

这种表方式不用关心原来名为course_table的表结构和现有表结构是否一致，该写法会先删除原表再新建表，表项没有注释也会产生小文件的问题，为了避免小文件的问题，可以采用以下写法：

先创建hive表

sp = Spark()
spark = sp.spark
COURSE_TABLE_SAVE_NAME = 'course_table'
spark.sql("CREATE TABLE IF NOT EXISTS %s (course_id string COMMENT '课程ID', course_name string COMMENT '')COMMENT '课程名称'"% (COURSE_TABLE_SAVE_NAME,))

ct = df_write.count()  # 计算需要存表的条数
if ct == 0:
	return
df_write = df_write.repartition(int(ct/100000 +1))).persist()  # 避免产生很多小文件，限定文件个数

df.registerTempTable("tmp_table_df")
spark.sql("insert overwrite table %s from tmp_df" % (COURSE_TABLE_SAVE_NAME,))

pyspark dataframe存hive表

继续阅读

使用pyspark SQL处理MySQL中的数据

pyspark环境搭建,连接hive一环境搭建二项目创建

Spark/PySpark中map与flatMap

Spark数据分析之pyspark

pyspark创建数据

pyspark更换python版本修改spark-env.sh配置加载spark-env.sh配置启动pyspark查看默认python版本

pyspark中ip地理位置统计案例代码实现

spark.sql.Row

H2o-spark

H2O+Spark 计算皮尔逊相关系数

pyspark笔记40-dataframe的read、agg集合函数、别名和数据缓存、设置断点

python2.7 pyspark显示以及插入hive表中文编码问题

jupyter notebook中运行pyspark代码

纵观今年DatabricksData+AI峰会，尽管宣传的重心在AI上面，但实际发布的AI产品并不多，“英文SDK”算是

用写sql的思路写 pyspark