相關系數
相關關系是一種非确定性的關系,相關系數是研究變量之間線性相關程度的量。分為:簡單相關系數、複相關系數、典型相關系數; 這裡介紹一下簡單相關系數,很多論文有用到這個知識點,定義式為:
\[r(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var[X]Var[Y]}}
\]
其中,Cov(X, Y)為X與Y的協方差,Var[X]為X的方差,Var[Y]為Y的方差。求得的值在區間[-1, 1]中,其絕對值越大表示越相關,正值表示正相關,負值表示負相關。
Mean reciprocal rank(MRR)
這是一個對搜尋算法進行評價的名額,因為搜尋算法隻傳回top1的話,精确率會很低,MRR是傳回多個值,比如MRR@10是傳回算法預測可能性最高的10個。具體分數計算如下:
如果正确結果是第一個那麼得1分,第二個得1/2分,...,第n個得1/n分。
同構圖與異構圖
同構圖,node的種類隻有一種,一個node和另一個node的連接配接關系隻有一種
異構圖,有很多種node。node之間也有很多種連接配接關系。
Jaccard相似度
定義:兩個句子詞彙的交集size除以兩個句子詞彙的并集size
cosine相似度
\[similarity=cos(θ)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n} {A_iB_i}}{\sqrt{\sum_{i=1}^{n}{A_i^2}}\sqrt{\sum_{i=1}^{n}{B_i^2}}}
cosine相似度是通過計算兩個向量之間的夾角,來評價兩個向量的相似度。
Isomap(等距特征映射)
是一種降維方法,具體看連結
Meta-path
連接配接兩個節點的綜合關系能夠提取豐富的語義。
user--buy--item--buy--user(U-B-I-B-U)意味着共同購買關系;
user--social--user(U-S-U)意味着社會關系;
user--buy--item(U-B-I)意義購買關系;
user--view--item--view--user(U-V-I-V-U)意味着共同觀看關系。
簡單地說,meta-path是連接配接兩個實體的一條特定的路徑,比如“演員->電影->導演->電影->演員”這條meta-path可以連接配接兩個演員,是以可以視為一種挖掘演員之間的潛在關系的方式。這類方法的優點是充分且直覺地利用了知識圖譜的網絡結構,缺點是需要手動設計meta-path或meta-graph,這在實踐中難以到達最優;同時,該類方法無法在實體不屬于同一個領域的場景(例如新聞推薦)中應用,因為我們無法為這樣的場景預定義meta-path或meta-graph。
GCN的over-smoothing(過渡平滑)問題
在圖神經網絡的訓練過程中,随着網絡層數的增加和疊代次數的增加,每個節點的隐層表征會趨向于收斂到同一個值(即空間上的同一個位置)
不是每個節點的表征都會趨向于收斂到同一個值,更準确的說,是同一個連通分量内的節點的表征會趨向于收斂到同一個值。這對表征圖中不同簇的特征、表征圖的特征都有好處。但是,有很多任務的圖是連通圖,隻有一個連通分量,或較少的連通分量,這就導緻了節點的表征會趨向于收斂到一個值或幾個值的問題。
是以over-smooth的現象就是多次卷積後,同一連通分量内所有節點的特征都趨于一緻了。
Laplacian matrix(拉普拉斯矩陣)
百度百科
基于内容的推薦和基于協同過濾推薦
1、基于内容的推薦:根據物品或内容的中繼資料,發現物品或内容的相關性,然後基于使用者以前的喜好記錄推薦給使用者相似的 物品。
如:對于使用者A,他喜歡看電影A,那麼系統就可以給他推薦類似的電影C。
2、基于協同過濾推薦
(1)、基于使用者的協同過濾推薦(User-based Collaborative Filtering Recommendation)
基于使用者的協同過濾推薦算法先使用統計技術尋找與目标使用者有相同喜好的鄰居,然後根據目标使用者的鄰居的喜好産生向目标使用者的推薦。基本原理就是利用使用者通路行為的相似性來互相推薦使用者可能感興趣的資源。
(2)、基于項目的協同過濾推薦(Item-based Collaborative Filtering Recommendation)
根據所有使用者對物品或者資訊的評價,發現物品和物品之間的相似度,然後根據使用者的曆史偏好資訊将類似的物品推薦給該使用者。
(3)、基于模型的協同過濾推薦(Model-based Collaborative Filtering Recommendation)
基模型的協同過濾推薦就是基于樣本的使用者喜好資訊,訓練一個推薦模型,然後根據實時的使用者喜好的資訊進行預測推薦。
綜上所述:
1、基于内容的推薦,隻考慮了對象的本身性質,将對象按标簽形成集合,如果你消費集合中的一個則向你推薦集合中的其他對象;
2、基于協同過濾的推薦算法,充分利用集體智慧,即在大量的人群的行為和資料中收集答案,以幫助我們對整個人群得到統計意義上的結論,推薦的個性化程度高。
t-test
t-test是用來比較兩樣本平均值之間是否具有顯著性差異;
t-test的類型:
- one-sample t-test,用來比較單個樣本平均值和一個給定的平均值(理論值)
- independent samples t-test(unpaired two sample t-test),用來比較兩組獨立樣本平均值
- paired t-test,用來比較兩個相關樣本組之間的平均值
具體看連結