1.1 从hadoop文件系统(如hdfs、hive、hbase)输入创建
1.2 从父rdd转换得到新rdd
1.3 通过parallelize或makerdd将单机数据创建为分布式rdd
(区别: a)makerdd函数比parallelize函数多提供了数据的位置信息。
1.4 基于db(mysql)、nosql(hbase)、s3(sc3)、数据流创建。
所有的transformation都是采用的懒策略,就是如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。
