天天看點

對于大資料學習的探索

個人目前的大資料的了解是分布式,具體到一些教育訓練機構給出的教程,狹義上就是spark程式設計。

但是看了很多這些教程和書籍,對并行處理仍然有一些想不通的地方,比如GPU的cuda程式設計,線程和線程之間并行計算前後出現讀寫不同步的問題如何解決,加鎖嗎。

又比如map-reduce操作,往往書本和教程中給出的結點資料劃分容易了解,但是比如外部排序操作,如何直覺簡潔地進行分布式外部排序合并的描述,一直以來都是困惑的問題。

還比如,複雜網絡中标簽傳播,或者随機遊走,如果是并行處理,用硬體如何進行處理資料的劃分和處理邊界值,也是一直沒有了解的問題。

對于大資料學習的探索