天天看點

如何用深度學習處理結構化資料?

這篇部落客要關注的是深度學習領域一個并不非常廣為人知的應用領域:結構化資料。本文作者為舊金山大學(USF)在讀研究所學生 Kerem Turgutlu。

使用深度學習方法按照本文所介紹的步驟處理結構化資料有這樣的好處:

  • 無需領域知識
  • 表現優良

在機器學習/深度學習或任何類型的預測模組化任務中,都是先有資料然後再做算法/方法。這也是某些機器學習方法在解決某些特定任務之前需要做大量特征工程的主要原因,這些特定任務包括圖像分類、NLP 和許多其它「非正常的」資料的處理——這些資料不能直接送入 logistic 回歸模型或随機森林模型進行處理。相反,深度學習無需任何繁雜和耗時的特征工程也能在這些類型的任務取得良好的表現。大多數時候,這些特征需要領域知識、創造力和大量的試錯。當然,領域專業知識和精巧的特征工程仍然非常有價值,但這篇文章将提及的技術足以讓你在沒有任何領域知識的前提下向 Kaggle 競賽的前三名看齊,參閱:http://blog.kaggle.com/2016/01/22/rossmann-store-sales-winners-interview-3rd-place-cheng-gui/

如何用深度學習處理結構化資料?

圖 1:一隻萌狗和一隻怒貓

由于特征生成(比如 CNN 的卷積層)的本質和能力很複雜,是以深度學習在各種各樣的圖像、文本和音頻資料問題上得到了廣泛的應用。這些問題無疑對人工智能的發展非常重要,而且這一領域的頂級研究者每年都在分類貓、狗和船等任務上你追我趕,每年的成績也都優于前一年。但在實際行業應用方面我們卻很少看到這種情況。這是為什麼呢?公司企業的資料庫涉及到結構化資料,這些才是塑造了我們的日常生活的領域。

首先,讓我們先定義一下結構化資料。在結構化資料中,你可以将行看作是收集到的資料點或觀察,将列看作是表示每個觀察的單個屬性的字段。比如說,來自線上零售商店的資料有表示客戶交易事件的列和包含所買商品、數量、價格、時間戳等資訊的列。

下面我們給出了一些賣家資料,行表示每個獨立的銷售事件,列中給出了這些銷售事件的資訊。

如何用深度學習處理結構化資料?

圖 2:結構化資料的 pandas dataframe 示例

接下來我們談談如何将神經網絡用于結構化資料任務。實際上,在理論層面上,建立帶有任何所需架構的全連接配接網絡都很簡單,然後使用「列」作為輸入即可。在損失函數經曆過一些點積和反向傳播之後,我們将得到一個訓練好的網絡,然後就可以進行預測了。

盡管看起來非常簡單直接,但在處理結構化資料時,人們往往更偏愛基于樹的方法,而不是神經網絡。原因為何?這可以從算法的角度了解——算法究竟是如何對待和處理我們的資料的。

人們對結構化資料和非結構化資料的處理方式是不同的。非結構化資料雖然是「非正常的」,但我們通常處理的是機關量的單個實體,比如像素、體素、音頻頻率、雷達反向散射、傳感器測量結果等等。而對于結構化資料,我們往往需要處理多種不同的資料類型;這些資料類型分為兩大類:數值資料和類别資料。類别資料需要在訓練之前進行預處理,因為包含神經網絡在内的大多數算法都還不能直接處理它們。

編碼變量有很多可選的方法,比如标簽/數值編碼和 one-hot 編碼。但在記憶體方面和類别層次的真實表示方面,這些技術還存在問題。記憶體方面的問題可能更為顯著,我們通過一個例子來說明一下。

假設我們列中的資訊是一個星期中的某一天。如果我們使用 one-hot 或任意标簽編碼這個變量,那麼我們就要假設各個層次之間都分别有相等和任意的距離/差别。

如何用深度學習處理結構化資料?

圖 3:one-hot 編碼和标簽編碼

但這兩種方法都假設每兩天之間的差别是相等的,但我們很明顯知道實際上并不是這樣,我們的算法也應該知道這一點!

「神經網絡的連續性本質限制了它們在類别變量上的應用。是以,用整型數表示類别變量然後就直接應用神經網絡,不能得到好的結果。」[1]

基于樹的算法不需要假設類别變量是連續的,因為它們可以按需要進行分支來找到各個狀态,但神經網絡不是這樣的。實體嵌入(entity embedding)可以幫助解決這個問題。實體嵌入可用于将離散值映射到多元空間中,其中具有相似函數輸出的值彼此靠得更近。比如說,如果你要為一個銷售問題将各個省份嵌入到國家這個空間中,那麼相似省份的銷售就會在這個投射的空間相距更近。

因為我們不想在我們的類别變量的層次上做任何假設,是以我們将在歐幾裡得空間中學習到每個類别的更好表示。這個表示很簡單,就等于 one-hot 編碼與可學習的權重的點積。

嵌入在 NLP 領域有非常廣泛的應用,其中每個詞都可表示為一個向量。Glove 和 word2vec 是其中兩種著名的嵌入方法。我們可以從圖 4 看到嵌入的強大之處 [2]。隻要這些向量符合你的目标,你随時可以下載下傳和使用它們;這實際上是一種表示它們所包含的資訊的好方法。

如何用深度學習處理結構化資料?

圖 4:來自 TensorFlow 教程的 word2vec

盡管嵌入可以在不同的語境中使用(不管是監督式方法還是無監督式方法),但我們的主要目标是了解如何為類别變量執行這種映射。

實體嵌入

盡管人們對「實體嵌入」有不同的說法,但它們與我們在詞嵌入上看到的用例并沒有太大的差異。畢竟,我們隻關心我們的分組資料有更高次元的向量表示;這些資料可能是詞、每星期的天數、國家等等。這種從詞嵌入到中繼資料嵌入(在我們情況中是類别)的轉換使用讓 Yoshua Bengio 等人使用一種簡單的自動方法就赢得了 2015 年的一場 Kaggle 競賽——通常這樣做是無法赢得比賽的。參閱:https://www.kaggle.com/c/pkdd-15-predict-taxi-service-trajectory-i

「為了處理由客戶 ID、計程車 ID、日期和時間資訊組成的離散的中繼資料,我們使用該模型為這些資訊中的每種資訊聯合學習了嵌入。這種方法的靈感來自于自然語言模組化方法 [2],其中每個詞都映射到了一個固定大小的向量空間(這種向量被稱為詞嵌入)。[3]

如何用深度學習處理結構化資料?

圖 5:使用 t-SNE 2D 投影得到的計程車中繼資料嵌入可視化

我們将一步步探索如何在神經網絡中學習這些特征。定義一個全連接配接的神經網絡,然後将數值變量和類别變量分開處理。

對于每個類别變量:

1. 初始化一個随機的嵌入矩陣 mxD:

m:類别變量的不同層次(星期一、星期二……)的數量

D:用于表示的所需的次元,這是一個可以取值 1 到 m-1 的超參數(取 1 就是标簽編碼,取 m 就是 one-hot 編碼)

如何用深度學習處理結構化資料?

圖 6:嵌入矩陣

2. 然後,對于神經網絡中的每一次前向通過,我們都在該嵌入矩陣中查詢一次給定的标簽(比如為「dow」查詢星期一),這會得到一個 1xD 的向量。

如何用深度學習處理結構化資料?

圖 7:查找後的嵌入向量

3. 将這個 1×D 的向量附加到我們的輸入向量(數值向量)上。你可以把這個過程看作是矩陣增強,其中我們為每一個類别都增加一個嵌入向量,這是通過為每一特定行執行查找而得到的。

如何用深度學習處理結構化資料?

圖 8:添加了嵌入向量後

4. 在執行反向傳播的同時,我們也以梯度的方式來更新這些嵌入向量,以最小化我們的損失函數。

輸入一般不會更新,但對嵌入矩陣而言有一種特殊情況,其中我們允許我們的梯度反向流回這些映射的特征,進而優化它們。

我們可以将其看作是一個讓類别嵌入在每次疊代後都能進行更好的表示的過程。

注意:根據經驗,應該保留沒有非常高的基數的類别。因為如果一個變量的某個特定層次占到了 90% 的觀察,那麼它就是一個沒有很好的預測價值的變量,我們可能最好還是避開它。

好消息

通過在我們的嵌入向量中執行查找并允許 requires_grad=True 并且學習它們,我們可以很好地在我們最喜歡的架構(最好是動态架構)中實作上面提到的架構。但 Fast.ai 已經實作了所有這些步驟并且還做了更多。除了使結構化的深度學習更簡單,這個庫還提供了很多目前最先進的功能,比如差異學習率、SGDR、周期性學習率、學習率查找等等。這些都是我們可以利用的功能。你可以在以下部落格進一步了解這些主題:

https://medium.com/@bushaev/improving-the-way-we-work-with-learning-rate-5e99554f163b

https://medium.com/@surmenok/estimating-optimal-learning-rate-for-a-deep-neural-network-ce32f2556ce0

https://medium.com/@markkhoffmann/exploring-stochastic-gradient-descent-with-restarts-sgdr-fa206c38a74e

使用 Fast.ai 實作

在這一部分,我們将介紹如何實作上述步驟并建構一個能更有效處理結構化資料的神經網絡。

為此我們要看看一個熱門的 Kaggle 競賽:https://www.kaggle.com/c/mercari-price-suggestion-challenge/。對于實體嵌入來說,這是一個非常合适的例子,因為其資料基本上都是類别資料,而且有相當高的基數(也不是過高),另外也沒有太多其它東西。

資料:

約 140 萬行

  • item_condition_id:商品的情況(基數:5)
  • category_name:類别名稱(基數:1287)
  • brand_name:品牌名稱(基數:4809)
  • shipping:價格中是否包含運費(基數:2)

重要說明:因為我已經找到了最好的模型參數,是以我不會在這個例子包含驗證集,但是你應該使用驗證集來調整超參數。

第 1 步:

将缺失值作為一個層次加上去,因為缺失本身也是一個重要資訊。

  1. train.category_name = train.category_name.fillna('missing').astype('category')

  2. train.brand_name = train.brand_name.fillna('missing').astype('category')

  3. train.item_condition_id = train.item_condition_id.astype('category')

  4. test.category_name = test.category_name.fillna('missing').astype('category')

  5. test.brand_name = test.brand_name.fillna('missing').astype('category')

  6. test.item_condition_id = test.item_condition_id.astype('category')

第 2 步:

預處理資料,對數值列進行等比例的縮放調整,因為神經網絡喜歡歸一化的資料。如果你不縮放你的資料,網絡就可能格外重點關注一個特征,因為這不過都是點積和梯度。如果我們根據訓練統計對訓練資料和測試資料都進行縮放,效果會更好,但這應該影響不大。這就像是把每個像素的值都除以 255,一樣的道理。

因為我們希望相同的層次有相同的編碼,是以我将訓練資料和測試資料結合了起來。

  1. combined_x, combined_y, nas, _ = proc_df(combined, 'price', do_scale=True)

第 3 步:

建立模型資料對象。路徑是 Fast.ai 存儲模型和激活的地方。

  1. path = '../data/'

  2. md = ColumnarModelData.from_data_frame(path, test_idx, combined_x, combined_y, cat_flds=cats, bs= 128

第 4 步:

确定 D(嵌入的次元),cat_sz 是每個類别列的元組 (col_name, cardinality+1) 的清單。

  1. # We said that D (dimension of embedding) is an hyperparameter

  2. # But here is Jeremy Howard's rule of thumb

  3. emb_szs = [(c, min(50, (c+1)//2)) for _,c in cat_sz]

  4. # [(6, 3), (1312, 50), (5291, 50), (3, 2)]

第 5 步:

建立一個 learner,這是 Fast.ai 庫的核心對象。

  1. params: embedding sizes, number of numerical cols, embedding dropout, output, layer sizes, layer dropouts

  2. m = md.get_learner(emb_szs, len(combined_x.columns)-len(cats),

  3.                   0.04, 1, [1000,500], [0.001,0.01], y_range=y_range)

第 6 步:

這部分在我前面提及的其它文章中有更加詳細的解釋。

要充分利用 Fast.ai 的優勢。

在損失開始增大之前的某個時候,我們要選擇我們的學習率……

  1. # find best lr

  2. m.lr_find()

  3. # find best lr

  4. m.sched.plot()

如何用深度學習處理結構化資料?

圖 9:學習率與損失圖

拟合

我們可以看到,僅僅過了 3 epoch,就得到:

  1. lr = 0.0001

  2. m.fit(lr, 3, metrics=[lrmse])

如何用深度學習處理結構化資料?

更多拟合

  1. m.fit(lr, 3, metrics=[lrmse], cycle_len=1)

如何用深度學習處理結構化資料?

還有更多……

  1. m.fit(lr, 2, metrics=[lrmse], cycle_len=1)

如何用深度學習處理結構化資料?

是以,在短短幾分鐘之内,無需進一步的其它操作,這些簡單卻有效的步驟就能讓你進入大約前 10% 的位置。如果你真的有更高的目标,我建議你使用 item_description 列并将其作為多個類别變量使用。然後把工作交給實體嵌入完成,當然不要忘記堆疊群組合。

參考文獻

[1] Cheng Guo, Felix Berkhahn (2016, April, 22) Entity Embeddings of Categorical Variables. Retrieved from https://arxiv.org/abs/1604.06737.

[2] TensorFlow Tutorials: https://www.tensorflow.org/tutorials/word2vec

[3] Yoshua Bengio, et al. Artificial Neural Networks Applied to Taxi Destination Prediction. Retrieved from https://arxiv.org/pdf/1508.00021.pdf.

如何用深度學習處理結構化資料?

原文連結:https://towardsdatascience.com/structured-deep-learning-b8ca4138b848

繼續閱讀