天天看點

《中國人工智能學會通訊》——11.17 基于聚類規則項的多任務聚類方法

多任務學習方法能夠對交通路網中的多個節點同時進行分析,這滿足了交通的網絡性特點所提出的要求。進一步的,異質的多任務學習方法又對應了交通中關聯關系的異質性特點。圖 2 給出了我國山西省高速交通路網的交通流配置設定情況,可以看出,交通路網中異質的車流常常存在局部集中的特點,如果将這些車流集中的局部區域标記出來,則可以得到圖中的聚類模式。假設目前要學習的任務是高速路網中出口流量的預測問題,那麼圖 2(a) 則表示出了這些預測任務的聚類模式示意圖,圖中紅色的虛線圓圈可以看作出口的聚類,其意義在于同一個類簇中的出口預測任務是高度相關的,那麼相應的基于任務聚類的多任務學習方法便可以應用于交通流分析。然而,将目前已有的多任務聚類方法直接應用于交通場景并不恰當,因為目前的基于任務聚類的多任務學習方法都需要在學習之前先指定任務類簇的數目,但這一數目在真實交通問題中是未知的,例如圖 2(a) 中虛線圓圈的個數。本章針對現有基于任務聚類的多任務學習方法的不足,提出了一種基于聚類規則項的多任務聚類方法 (CRMTL, Clustered Regularization based Multi-Task Learning)。該方法采用一種新穎的聚類規則項,其優點在于不需要事先指定任務聚類的個數,而是從資料中自主地學習出聚類結構。該模型的目标函數形式如下:

《中國人工智能學會通訊》——11.17 基于聚類規則項的多任務聚類方法

其中,y i 和 X i 分别為第 i 個任務 ( 共 m 個任務 ) 的輸入和輸出;W 為模型參數,w i 為矩陣 W 的第 i 列;λ 為規則項系數。式 (1) 中的第一項為損失函數;第二項為聚類規則項,該規則項對任意兩個任務列向量的內插補點添加第二範式,其作用是迫使任意兩個任務 i 和 j 盡可能的相似,進而将相似的任務聚類。λ控制了聚類的強度,當 λ 越大時,聚類的個數越少。上述聚類規則項的優點是不需要事先給定任務聚類的數目,而是通過規則項對任務列向量進行限制,從資料中自主地學習出任務聚類模式。

《中國人工智能學會通訊》——11.17 基于聚類規則項的多任務聚類方法

注意,式 (1) 中的聚類規則項

《中國人工智能學會通訊》——11.17 基于聚類規則項的多任務聚類方法

不同于特征學習中的特征聚類規則項 Fused Lasso [3] 。Fused Lasso 規則項用于對特征進行聚類,其特點是對任意兩個标量做差,然後取所有內插補點的絕對值的和作為規則項。而式 (1) 中的聚類規則項是對任意兩個向量做差,然後取所有內插補點向量的第二範式的求和作為規則項。求解基于向量內插補點的規則項要比求解基于标量內插補點的規則項更困難[4] 。

命題 1 式 (1) 中的目标函數為凸函數 (Convex),其中的聚類規則項為非光滑 (Non-Smooth) 函數。

命題 1 給出了 CRMTL 模型目标函數的求解性質。雖然式 (1) 中的優化問題為凸函數優化問題,然而聚類規則項卻為非光滑的函數。這使得式 (1)的梯度無法直接求得,是以基于梯度的優化方法無法直接使用。在機器學習方法中,常用的處理非光滑函數的方法為次梯度 (Sub-Gradient) 法[5] ,然而該方法的計算非常耗時。是以,求解 CRMTL 模型較為困難。本文提出了一種針對 CRMTL 的高效光滑近似優化算法 ( 詳細内容請參看全文 )。

繼續閱讀