H2O+Spark 计算皮尔逊相关系数

2023-06-24 23:07:49

#set_h2o_cluster("10.111.32.12", 54321) external h2o 集群中d的任意节点IP,
#set_client_ip("10.111.32.16") h2o 的ip  可以同一个主机 
conf = H2OConf(ss).set_external_cluster_mode().use_manual_cluster_start().set_h2o_cluster("10.111.32.12",54321).set_client_ip("10.111.32.16").set_cloud_name("test")
hc = H2OContext.getOrCreate(ss, conf)
conf =H2OConf(ss).set_external_cluster_mode().set('HADOOP_USER_NAME','dp').set_h2o_driver_path().set_user_name('dp').use_auto_cluster_start().set_num_of_external_h2o_nodes(1).set_mapper_xmx("2G").set_yarn_queue("h2o").set_cloud_name("h2o_gbm")

conf = H2OConf(ss).set_external_cluster_mode().set('HADOOP_USER_NAME', 'dp').set_h2o_driver_path(
    "/home/dp/h2odriver/h2odriver-sw2.3.18-hdp2.6-extended.jar").set_user_name(
    'dp').use_auto_cluster_start().set_num_of_external_h2o_nodes(2).set_mapper_xmx("6G").set_yarn_queue(
    "default").set_cloud_name("h2o_gbm")
conf = H2OConf(ss)
conf.set_num_h2o_workers(2)

hc = H2OContext.getOrCreate(ss, conf)


df_corr_h2o = hc.as_h2o_frame(df_corr,framename='df_corr_h2o')
temp_corr_features_list = df_corr_h2o.cor()

corr_list = Correlation.corr(df, 'features' ,method="spearman")

print("相关系数计算：",temp_corr_features_list,"    type ",type(temp_corr_features_list),"话费时间：",time.time()-start_time)

columns_cols = list(final_table_schema.keys())
if self.y_col in list(final_table_schema.keys()):
    columns_cols.remove(self.y_col)

columns_cols = list()
for k, v in final_table_schema.items():
    if k != self.y_col and v != 'timestamp':
        columns_cols.append(k)

H2O+Spark 计算皮尔逊相关系数

继续阅读

pyspark调用spark以及执行带in语句参数的hql示例

用写sql的思路写 pyspark

pyspark学习(一)—pyspark的安装与基础语法一 Pysaprk的安装二：pyspark的简单语法END

【Spark Mllib】K-均值聚类——电影类型K-均值聚类数据特征提取

一篇文章让你精通Java JSP规范

世界因大数据而改变

Spark的RDD转换算子-双value型Spark的RDD转换算子-双value型

SparkSQL项目练习1 准备数据2 需求：各区域热门商品Top3

延云行业搜索数据库在大数据生态中位置和重要性大数据的挑战大数据技术的现状延云行业搜索数据库

Spark在windows环境里跑时报错找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系统实现流式实时日志分析系统

Scala和Java二种方式实战Spark Streaming开发

Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark运行模式第3章案例实操

Spark实现wordcount

大数据排错SparkSpark集群启动时候，JAVA_HOME is not sethadoop集群，某台服务器jps无任何输出IDEAkafkahadoopspark sqlfile permissionsIDEA本地测试 - OutOfMemoryError: GC overhead limit exceededhdfs负载均衡

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结