2月16日,我終于按捺不住想刷技能的沖動,把CSDN新嘗試購入的資料課給打開了,以下及後面筆記皆為CSDN學院課程《零基礎搞定Python資料分析》,前期裝置的問題,平闆和紙筆的方式完成了前面八章的課程,為了便于後期整理,這裡就不按照課程的章節來分博文轉換筆記,直接按照Part部分,引入,基礎,關鍵核心,應用,計算,實踐這幾個部分來整理。同時,将紙質筆記輸入的同時,使用編譯器完成部分練習,有源碼則貼出來,無則跳過。
預期目标是,完成資料分析的技術棧/資料研發的理論部分,最後将聽課過程中兩個引入生活需求的小點子實作為項目并将結果可視化。下面是大資料分析師的技術棧及相關理論需要,這部分的課程主要側重于資料分析與資料采集、處理部分的網絡爬蟲、以及機器學習中的幾類算法,還有少部分的資料可視化,隻是可能沒有側重于軟體的使用而是圖形特點的講解,例如離散連續等。
至于資料采集部分的ETL和資訊提取、資料存儲部分的資料庫知識、大資料子產品的Hadoop及hive以及行業業務知識,從重要程度來看,也就是列舉的順序。可以用其他的課程補充,這裡先把這部分課程筆記歸納練習。

20200216-20200224 八天正好八章,這篇主要是講介紹及資料分析的工作流程。
講課的老師是 劉順祥,參考教材是他編寫的《從零開始學Python資料分析與挖掘》。
【引言】Part 01 資料分析介紹
1. 工具
Python3、Anaconda、jupyter Notebook
P.S:這裡有個小技巧,如何在自己指定的目錄下打開jupyter,這樣的話代碼就放在可控範圍内。打開想放demo的檔案目錄下,然後按住shift右擊,會出現一個在目前目錄下打開指令行,點選後會彈出指令行界面,在指令行中輸入:
jupyter notebook
然後稍等幾秒會出現啟動jupyter的提示,并打開預設浏覽器。
這裡再标記一下幾個快捷鍵,用多了大概就熟悉了。
# 以下為快捷鍵
# Ctrl + Enter 隻運作目前行
# Shift +Enter 運作并跳轉下一個代碼框
# Ctrl + / 快速注釋目前行
# Shift +Tab 幫助查詢 按一次出現基本 再按一次為顯示更多
2. 資料分析工作内容
流程:SEMMA
業務場景→分析和模組化問題
① S:Sample (搜集資料)
Ways:問卷調查、資料庫查詢、實驗室試驗、儀器裝置的記錄等
② E:Explore (資料探索)
Ways:離散變量的分布比例、連續變量的分布形态、資料異常和缺失、特征選擇
③ M:Modify (資料修正) 便于下一步分析模組化
Ways:資料類型的轉變、資料的一緻性處理、異常值和缺失值的處理、資料形态的轉變(例如 有偏到無偏)
e.g: 各變量的缺失狀态?統計描述?離散變量如何數值化/各變量中的缺失資料如何處理
④ M:Model (資料模組化) 資料分析中用的不多,但資料挖掘中有必要掌握
Ways:這裡用一張圖表示會更清楚一些,主要是有無監督:
e.g: 如何基于調查資料,預測使用者收入水準 idea擴充 基于爬取到的業務資料,預測業務水準
⑤ A:Assess (模型評估) 檢驗Model穩定性及實用性
Ways:RMSE、混淆矩陣、ROC曲線、KS曲線
e.g: 檢驗KNN對資料的拟合效果
優化問題→比如,如何選擇更好的模型 可以度量和預測現有收入資料?
常用政策:增加樣本、擴充次元、修正模型參數(調優)、更換其它模型
以上,分析過程是循環往複的。
3.資料分析和挖掘的差別
這個部分使用了一個對比表的方式,直接上紙質筆記。
其中,資料挖掘偏向于技術,而分析側重于描述和理論分析,最後得到的結果也不完全相同。
這裡加一點題外話:現在投入的研究“線上業務資料采集用于直接計算”來說,用專業挖掘的技術手段來實作資料分析的擴充方法。
需要掌握的技能:
- 資料搜集 SQL
- 資料清洗與探索 Excel/Python
- 資料模組化 Python
- 結果呈現 PPT(可視化工具)
這部分的紙質筆記就騰完了,主要講的是資料分析大概是啥,需要做啥,近親長得像的有哪些,對于這部分的學習有一個大緻的了解。
Slogan:刻意練習,每日精進。