1 前言
作為大資料行業的從業人員和資料分析的愛好者,長期關注于kaggle和天池的比賽情況,也慢慢的見證了天池平台的成長。得到天池團隊贈送的《阿裡雲天池大賽賽題解析(機器學習篇)》一書後,花了2個月的時間仔細讀了一遍,可以用愛不釋手來形容。是以,有了寫一篇導讀将這本書介紹給對于大資料算法有興趣的朋友們。
2 全書概覽
全書的結構圍繞以下4道賽題組成:
(1)工業蒸汽量預測
(2)天貓使用者重複購買預測
(3)O2O優惠券預測
(4)阿裡雲安全惡意程式檢測
4道賽題所采用的算法模型都是機器學習算法,也符合本書的定位,沒有涉及到深度學習的領域,實際上從近期天池平台的賽題設定包括kaggle的賽題設定可以發現,針對圖像處理相關賽題的比重正在逐漸變多,個人感覺是和現實生活包括工業場景中資料異構的情況占絕大部分有關。是以,如果純粹的把算法的使用或者賽題的設定限制在結構化資料,則會對算法的落地産生麻煩,最終會造成因比賽而比賽,為了獲獎而設計算法的情況,這明顯不是天池比賽的初衷。而本書之是以會單獨将機器學習算法賽題集結成冊,個人感覺是成書的目标不僅僅是賽題的解讀或者獲獎選手的代碼集錦,而是有教學目的的,這個從書中每道題的講解順序中也可以發現。
是以,從全書的結構角度雖然很可能乍一看覺得是講了4道題的解答方法,但是4道題的代碼解釋明顯用不了那麼大的篇幅。仔細的看下去,就可以發現,其實是目前機器學習教科書中很特殊的一種寫作方式,以賽題為核心,先以理論切入,後将理論結合賽題說明思路,最後是代碼的解釋。
由于機器學習的算法涉及到一些數學方面的知識(當然數學要求比深度學習略低),僅僅看理論的教材很容易讓初學者有退卻的心理,面對一大堆的公式無所适從,更不知道這些算法在實際過程中如何應用,而看論壇裡各位大神的代碼,又是沒有理論解釋的,天池團隊的這本書正好填補了中間這個空白,是以也是讓我愛不釋手的原因。
3 本書細分章節的特點
本書的4道題,每道的細分章節都相似,其實就是整個資料科學家或者資料分析師工作的流程,當然缺少了資料采集的環節,原始資料作為賽題本身的一部分已經預先提供。
收到資料以後,之後的步驟就是資料概覽(書裡叫資料探索)、特征工程、模型訓練、模型驗證和作為提高的模型優化,當然也可能全部流程完成後發現瓶頸其實不在模型和調參,而在于特征工程沒有做好,這個情況其實我覺得在進入一個陌生的領域時會經常發生,是以特别面向工業領域的算法設計,了解工藝生産流程是非常有必要的,甚至可以直接決定特征工程的結果。
資料探索方面,其主要的目的是對于資料集及資料的分布情況有一個全面的了解。如果對于機器學習的算法原理比較熟悉的話,在這個階段已經會有意向中可能會采用的算法。書中,天池團隊先進行了本階段所需要理論知識的介紹,這一個部分中,所需要的理論知識基本屬于統計範疇和可視化範疇,所得出的結果也是描述型的。從宏觀上對于資料的分布有一個了解,細節上知道資料集的缺失值情況、各個次元間的相關性以及作為賽題來說訓練集和測試集的關系。
特征工程方面,這個步驟其實占了全局絕大部分的工作量,比較繁瑣,又不得不做,因為自然管道收集到的各種資料多多少少存在問題。事實上,資料中台的價值一直被通俗的概括為資料驅動,看似宏觀但從特征工程方面就可以準确了解什麼是資料驅動。要驅動形形色色的功能業務,必然需要面對特定場景的資料,而采集的原始資料基本上都不能直接作為輸入。是以,特征工程的任務就是将雜亂的原始資料整合成生産資料的過程。書中介紹的特征工程内容是全書的一個重頭戲,也是其他參考書中比較少涉及到的領域,畢竟介紹模型和算法的參考書非常多,而包括降維、異常值檢測、缺失值填充則隻有全流程經曆過并依靠實際的資料集處理展示才能講明白。
模型的訓練部分,書中提供了同一場景多種模型的解題思路,也是從算法的原理講起,但是并不偏向純數學,個人感覺,如果是面向工程的,足夠,如果偏向算法原理改進等學術研究的,則還需要結合其他更偏重理論研究的參考資料,本書在這方面着眼于機器學習的面,并不過于糾結某個點。4道題的模型介紹基本覆寫了常用的機器學習算法,和kaggle同類題采用的算法也差不多,仔細看一遍能夠了解整個領域的算法模型組成和具體的使用場景。
模型驗證方面,主要由兩部分的内容組成,即驗證名額的選擇和調參,驗證名額方面書中并未完全拘泥于賽題的驗證名額,對于不同算法所采用的驗證名額介紹是非常詳細的。調參方面,這其實是一個疊代過程,手工調參高手必然是結合了對算法原理的精通和大量的實際調參經驗,而自動調參則是在經驗法則下的反複嘗試。
4 總結
總體這本書是一本非常好的教學讀物,不可以單純的将其視為賽題的歸納,天池團隊在賽題之外全流程的介紹了資料分析和資料挖掘的過程,各個步驟的介紹都非常詳細。平時作為備查的資料也相當不錯,也非常期待後續有深度學習類的相同著作問世。
作者:朱祺 進階工程師 國際電氣電子工程師協會IEEE進階會員 英國工程技術學會MIET 阿裡雲MVP