論文筆記：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

感想

這是一片IJCAI 2018的論文，一開始看到這個東西的時候，我感覺還是比較新的，把社交網絡的hashtag和tweet的網絡結構融入到embedding中，做了一個network embedding和content結合的東西。這應該是我2018年看得比較好的hashtag方面的論文了。希望後面有跟多關于這方面的論文，因為本人也是研究社交網絡裡面的hashtag的。目前還沒有找到開源的源代碼。

介紹

Hashtag在許多社交平台上扮演着資訊擴散的作用（information difusion），它能夠組織資訊（organizing messages），突出主題（highlighting topics）。那Twitter作為一個例子，大約有2.4億活躍使用者，每天釋出了超過5億條tweet，1/4的tweets打上了hashtags。Hashtags是基于關鍵字的tags，用于描述tweet裡的内容，例如#superbowl，#nfl等等。Hashtags有多種用途，包括品牌推廣（brand promotion），micro-meme discussions和tweets分類。另外，随着tweets的數量變得非常大，hashtags也可用于促進資訊檢索，使tweets更容易查找和擷取。是以，hashtags的知識發現在針對性的推薦（targeted recommendations），内容組織和事件分析（event analysis）等許多應用上非常重要。

micro-meme：本人也不怎麼了解，我這裡查了資料，是這樣說的Users on Twitter have developed a tagging culture of placing a hash symbol (#) in front of short strings, called hashtags, on their posted messages, called tweets. Since then, a phenomenon of tagging which we call micro-meme has arisen.

意思是使用者形成了一種為tweets打hashtags的文化，我們把這種tagging行為叫做micro-meme。

不管它的價值和意義，學習hashtags的有意義且有效的表示以及他們相關的文本（tweets）仍處于早期階段，是由于一下的一些挑戰引起的：1）不可控制的hashtags的創造和接納（uncontrolled creation and adoption of hashtags），着導緻了資料稀疏，歧義，同義的問題。2）結構關系，例如hashtags之間的共現性以及共享hashtag的tweets。這反映了至關重要的語義資訊，但是怎樣對這些異構關系模組化是一個意義重大的任務。（3）除了結構關系資訊，内容資訊在hashtags的語義模型上也扮演着一個重要的覺得。可是，段文本的本質會産生特别稀疏的bag-of-words表示，限制了後面的學習表示。總之，為了更好的學習hashtag表示，急需要發展去綜合考慮異構資訊并且共同學習不同對象的表示的技術。

為了解決這些問題，我們調研了hashtag embedding問題并且提出了一個層級的帶有異構關系的embedding架構，叫做Hashtag2Vec。我們首先根據co-occurrence關系建立了一個hashtag網絡。如果兩個節點出現在某個tweet上，我們就把這個兩個結點連接配接起來。每個hashtag有兩極層級文本資訊，分别是tweets和words。和現有的Network Embedding（NE）模型相比。我們的任務的網絡包含多種對象（objects）和更多複雜的結構。是以它能夠更完整的表示以hashtag為中心的社交文本。為了解決層級異構網絡嵌入（hierarchical heterogeneous embedding），我們把embedding模型設計用于不同的關系，能夠同時分解結構矩陣和内容矩陣。結構矩陣包含hashtag-hashtag co-occurrence矩陣和hashtag-tweet互動矩陣。内容矩陣是tweet-word矩陣和word-word矩陣。利用tweets作為邊資訊，我們可以利用hashtag co-occurrence關系。跟DeepWalk的等價的矩陣分解形式一樣，分布的hashtag向量表示可以獲得。由于DeepWalk和word embedding的分解形式，多種矩陣可以在一個統一的架構同步分解。和其他的NE方法相比，我們的模型可以産生兩個重要的副産品，tweets’ embedding和words’ embedding。于是，每種對象的表示學習可以互相促進，例如hashtag，tweet，word。即使Twitter是社交媒體平台上的一個表示，它也可以用于其他社交平台上，例如Facebook，Flickr等等。在真實世界上的資料集的實驗證明我們的方法超過了所有其他的最好的方法。

貢獻

1. 我們提出了一個層級的embedding方法來對hashtags和tweets模組化。

2. 我們進一步提出融合從結構和内容上融合多種多樣的異構資訊來增強表示學習。

3. 我們在hashtag和tweet clustering任務上用真實世界資料集來評估了我們的模型。并且實驗結果顯示增長明顯。

方法

我們提出用一個聯合嵌入架構來學習不同對象類型的表示，叫做Hashtag2Vec。在提出的架構下，Uh表示hashtags, Ut表示tweets，Uw表示單詞，這些可以同時學習到，并且互相增強。

論文筆記：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

如圖1，層級異構圖G=(V^h∪V^t∪V^w,E^hh∪E^ht∪E^tw∪E^ww)有三種頂點，hashtags V^h,tweets V^t, words V^w; 四種邊： hashtag-hashtag E^hh, hashtag-tweet E^ht, tweet-word E^tw, word-word E^ww。給定異構圖G，每種類型的關系可以表示為一個鄰接矩陣，M^hh, M^ht, M^tw, M^ww。

3.1 基于内容的嵌入

Hashtags的語義意義由他們相關聯的短文本傳達，例如tweets。在這個工作中，我們首先提出一個層級的基于内容的embedding方法。他被設計用于捕獲hashtag-tweet-word層級内容的語義資訊。正如圖1，它利用了文檔表示學習和單詞分布表示學習(word distributed representation learning)。

Tweet Level Embedding

Tweets可以自然的被認為是包含了單詞的文檔。标準的話題模型方法，想NMF，LDA可以被用于tweet話題發現。這裡，我們利用了一個神經嵌入模型（neural embedding model）。特别地，為了對word和tweet在嵌入空間上的距離模組化，我們定義了他們的聯合機率：

其中u_i^t∈R^k, u_j^w∈R^k分别是第i個tweet和第j個單詞k維嵌入向量。并且logistic函數σ(∙,∙)用于把表示的相似度轉換為co-occurrence機率。Eq.(1)定義了在tweet和word對上的分布p^tw (.,.)，它的經驗分布p ̂^tw (.,.)可以從鄰接矩陣M^tw求得。我們定義規範化的鄰接權重(normalized adjacency

Weight)：

其中m_ij^tw是M^tw的一個條目(entry)，為了在embedding空間中近似資訊，我們可以最小化這兩個分布之間的距離：

其中d(.,.)衡量的是兩個分布的不同（dissimilarity），我們可以采用歐幾裡得距離，損失函數可以寫為：

Word Level Embedding

和正常的文檔相比，tweets比較簡略（shortness），為了應對這個挑戰，我們引入了word-word 關系來捕獲在局部環境下（in local contexts）的word co-occurrences。目标就是在給定目前單詞的情況下，預測上下文單詞（context words），上下文單詞是固定大小視窗内的單詞。我們使用了一個相似的損失函數：

精确的說，p ̂^ww (i,j)是單詞和上下文對的逐點的互資訊（pointwise mutual information, PMI），通過一個全局常亮的轉換（shifted by a global constant）。Word i和它的context j的PMI定義為：

是對所有可能的word-word對求和，由于PMI矩陣是不适定的且稠密的（ill-posed and dense），Shifted Positive PMI (SPPMI)被認為是一個更好的PMI矩陣選擇，這裡我們有

3.2 Structure-based Embedding

除了内容，hashtag網絡的結構也傳遞着hashtags和tweets的有意義的資訊，結構資訊（structural information）可以從兩個角度來捕獲。一方面，hashtags co-occurred應該被嵌入到相似的表示向量；另一方面，hashtags和tweets出現的分布表示也應該相似。是以，我們提出通過結合這兩方面來編碼結構資訊。

Global Structure-based Embedding

Hashtags的網絡是通過他們的co-occurrence關系E^hh建立的，它是hashtags的全局結構。鄰接權重M^hh是通過co-occurrence的數目來計算的。DeepWalk在嵌入一個網絡的節點是有效的，但是他不能學習異構網絡的表示。這裡我們首先采用DeppWalk用于hashtag網絡，但是沒有考慮其他類型的對象（objects）。特别地，兩個hashtags在嵌入空間的近似可以通過瞎 main的聯合機率函數捕獲到：

其中u_i^h∈R^K是第i個hashtag的低維向量表示。給定一個鄰接矩陣M^hh,其經驗分布p ̂^hh (.,.)定義如下：

其中e_i是one-hot向量，其中第i個元素等于1.目标是最小化這兩個分布的距離：

Local Structure-based Embedding

另一個重要的關系是hashtags和tweets之間的局部交叉。一個hashtag的話題是通過其打标簽的tweets來讨論的，是以，tweets采納了hashtags應該有相似的話題。和hashtag-hashtag關系相比，hashtag-tweet關系有助于從另一個角度來學習hashtag embedding。我們利用一個聯合機率函數來傳遞co-occurrence資訊。

其經驗分布p ̂^ht也可以從鄰接矩陣M^ht來求得。由于hashtag-tweet關系足夠來表示他們的語義近似度，我們直接把鄰接權重規範化作為其經驗分布p ̂^ht：

其損失函數可以最小化其分布和經驗分布之間的距離：

3.3 Heterogeneous Joint Embedding

為了學習異構網絡的嵌入（embedding of the heterogeneous network），我們通過下面的目标函數來嵌入四個網絡：

其中?是參數的集合θ={U^h,U^t,U^w}, Ω(.)是正則項〖||U^h ||〗_F^2+〖||U^t ||〗_F^2+〖||U^w ||〗_F^2. 且ℷ是超參數。

由于tweets比較短，M^hw非常稀疏。是以我們把tweets用相同的hashtags聚集到假文檔上（pseudo-documents），假文檔更稠密。為了創造一個hashtag-word 矩陣M^hw，我們定義一個hashtag-word關系的損失函數：

聯合嵌入目标函數為：

上面兩個目标函數的優化問題可以用梯度下降方法解決。在本文章中，我們采用SGD方法來進行優化更新。

實驗

資料

為了驗證我們模型的有效性，我們使用了兩個tweet集合，Tweet2011和Tweet2015. Tweet2011釋出咋TREC 2011microblog track上，Tweet2015是在Twitter.com用爬蟲爬去的2015年6.15～6.23日的微網誌，根據選擇的熱門關鍵字爬取的。原始帶有主幹的（with stemming）資料集經過移除轉發處理，處理結果如表1:

評估标準

Hashtags和tweets聚類是在目标推薦（targeted recommendation）,内容組織，事件探測和分析上的關鍵問題。是以，我們用hashtag和tweet聚類來評估表示相比于其他方法的有效性。在學習hashtags的分布表示之後，hashtags的相似性可以在一個語義空間上來計算。我們的評估基于H-Score,是一個普遍用的評估标準。H-Score反映的是平均聚類内距離的比例，和平均聚類類間距離的比例。H-score 越小性能越好。

Clustering Hashtags and Tweets

聚類結果如表2和表3:

Effectiveness of Model Components

Topic Coherence Evaluation

嵌入模型學習連貫的話題( coherent topics )來促進語義了解。是以，我們通過Hashtag2Vec來評估這個word embedding向量的話題連貫性（topic coherence）。我們采用PMI-Score來評估，因為它廣泛地符合人類的判斷。PMI-Score計算每個話題下前幾個單詞的平均語義相關性。Embedding空間的次元作為話題數。給定第K個話題，M個最可能的單詞(w_1^k,…,w_M^k)可以通過他們在第K維嵌入次元來獲得。PMI-Score的定義如下：

其中（M 2）是前幾個單詞的結合數量，K是話題的數量。比較結果如圖3:

論文筆記：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

感想

介紹

貢獻

方法

3.1 基于内容的嵌入

Tweet Level Embedding

Word Level Embedding

3.2 Structure-based Embedding

Global Structure-based Embedding

Local Structure-based Embedding

3.3 Heterogeneous Joint Embedding

實驗

資料

評估标準

Clustering Hashtags and Tweets

Effectiveness of Model Components

Topic Coherence Evaluation

Case Study

參考文獻

繼續閱讀

模式識别--緒論什麼是模式識别？模式識别的主要方法及具體應用

Chipletz采用芯和半導體Metis工具設計智能基闆産品

PCA(主成分分析)降維可視化Matlab實作

C++ 不知圖系列之基于鄰接矩陣實作廣度、深度搜尋

數理統計——Kmeans一、聚類二、程式實作三、各種算法對比1.KMeans++2.Mini Batch K-Means3.如何确定合适的k值

拓端tecdat|R語言代寫實作層次聚類模型

拓端tecdat|R語言輔導使用K-Means聚類可視化WiFi通路

拓端tecdat|R語言代寫：EM算法和高斯混合模型的實作

拓端tecdat|R語言輔導中不同類型的聚類方法比較

ICCV何恺明團隊又一神作：Transformer仍有繼續改善的空間

經典算法筆記：無監督算法（聚類、降維）

【基礎算法】常見的ML、DL程式設計題

層次聚類算法介紹1層次聚類的定義2距離與相似性3合并算法思想4算法流程5 示例與分析6需注意的問題

跟着Cell學單細胞轉錄組分析(十二):轉錄因子分析

機器學習 day7 kmeans 聚類算法

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取