1.1 從hadoop檔案系統(如hdfs、hive、hbase)輸入建立
1.2 從父rdd轉換得到新rdd
1.3 通過parallelize或makerdd将單機資料建立為分布式rdd
(差別: a)makerdd函數比parallelize函數多提供了資料的位置資訊。
1.4 基于db(mysql)、nosql(hbase)、s3(sc3)、資料流建立。
所有的transformation都是采用的懶政策,就是如果隻是将transformation送出是不會執行計算的,計算隻有在action被送出的時候才被觸發。
