
以下都是胡說八道,僅供我個人參考。
自從我改行做資料分析,發現要學習的東西很多,轉行并不是一件容易的事情。空缺的知識特别多。是以自己記錄自己的一些學習和工作心得。
1、總得來說資料分析流程就3個基本步驟:
輸入-->計算-->輸出
是以在資料分析中不管是做架構設計還是算法設計這三個基本步驟是不可缺少的;仿佛我們的計算機也是這個最基本的運作流程。
一、輸入:
那麼在資料分析領域我們輸入的是什麼呢
當然是資料,文本資料,結構化資料,非結構化資料(音頻、視訊),具體對象是我們在資料分析中的表資料,或者資料流。
從這些表中,
第一步,摸排表結構,了解各字段含義;提取關鍵字段,這些字段都是有用的,構成一個對象的屬性。沒用的字段沒必要太理會,這個地方和做其他web應用的有所不同。
第二步,找出唯一屬性,能唯一定義每一條資料的,這個字段往往能和其他表的字段關聯;
二、計算:
計算大多數時候是交,并、差、過濾等操作。可具體描述資料碰撞流程。
三、輸出:
計算完需要用一個結果表将資料接收。