首先介紹一下機器學習的概念和地位,和其他的差別是?
機器學習的核心任務是?
機器學習的全流程是?
我們将上述流程拆解出來看:
1.需求來源是?需求天上來?被提需求到底是接還是不接?
2.老闆說沒有資料!還不舍得花錢買!讓我自己想辦法擷取!還得謝謝老闆點明方向,這可怎麼辦?
那你得會資料采集!
Python網絡爬蟲就是一種資料采集手段,簡單來說就是個請求&解析的過程
那如何快速上手網絡爬蟲呢?
你需要掌握以下内容并靈活選擇應用:
常用的請求庫:urllib、requests
常用的解析庫:BeautifulSoup、lxml
還有靈巧的資訊提取方式:css選擇器/xpath表達式
靜态網頁 & 動态網頁爬取方法等等
3.需求方給的資料一團糟,我該如何搞?
這就涉及髒資料的處理,所謂的髒資料,就是資料不夠整潔。
常見的問題有:
● 資料串行、尤其是長文本情形下。
● 數值變量中混有文本格式、格式混亂。
● 各種符号亂入。
● 資料記錄錯誤。
是以你需要學會處理髒資料的資料預處理和資料清洗,不要小看它們的重要性。
這些操作的時間占到了全部機器學習項目的60%~70%的時間。
4.資料清洗完成,怎麼入手分析呢?
通過探索性資料分析,我看可以探索出:
● 資料分布如何?
● 資料裡有什麼内容?
● 從資料中能找到什麼對分析有用的線索?
探索性資料分析的具體方法可以有:
● 資料基本概況(統計定量分析)
● 缺失值展示與探索
● 異常值與離群點展示與探索
● 目标變量重點分析
● 自變量與目标變量相關分析
● 統計繪圖與可視化展示
5.資料預處理完成,作為機器學習,我們肯定是要用資料來訓練模型,我們在訓練模型時候是将資料所有字段(列)都考慮用上麼?
一般來說并不是都使用,這裡要聊一聊特征工程了。
那什麼是特征工程呢?
特征工程是最大程度從原始資料中汲取特征和資訊來使得模型達到盡可能好的效果。
特征工程包括:
● 資料預處理
● 特征選擇
● 特征變換與提取
● 特征組合
● 資料降維
6.特征工程做完了,我已經迫不及待模組化了,選什麼模型合适呢?模型表現的話一般如何調優?
機器學習的常用模型你得了解:
● 哪些是有監督模型,哪些是無監督模型,哪些是半監督模型。
● 每個模型的适用情況和優缺點。
● 在sklearn庫裡如何調用相應模型。
● 對于不同模型調優如何調。
7.模型訓練好了,預測結果也輸出了,是不是得畫個圓滿句号寫份報告呢?
這裡涉及:
● 模型結果展示方式
● 資料分析報告撰寫套路
看到這裡,你可能還有一些疑問,例如:
● 機器學習中如何補救數學基礎薄弱?
● 機器學習的程式設計能力如何提高?
● Jupyter Notebook與PyCharm如何選擇?
● 機器學習零基礎有什麼書籍推薦?
● 機器學習學完之後如何實踐?
● 機器學習具體的需求分析如何實作?
● 資料清洗具體技術如何實作?
● 探索性資料分析具體流程是?做哪些可視化?
● 在做特征工程的時候除了要考慮模型,業務部分如何考慮?
● 機器學習比賽大殺器XGBoost模型如何實作?
● 機器學習模型調優如何修煉?
● 資料分析報告一般包含哪些部分,具體怎麼做,有哪些套路?
原文釋出時間為:2018-10-17
本文作者:小編
本文來自雲栖社群合作夥伴“
Python愛好者社群”,了解相關資訊可以關注“
”。