天天看點

《推薦系統:技術、評估及高效算法》一2.6 總結

本節書摘來自華章出版社《推薦系統:技術、評估及高效算法》一書中的第2章,第2.6節,作者 [ 美]弗朗西斯科·裡奇(francesco ricci)利奧·羅卡奇(lior rokach)布拉哈·夏皮拉(bracha shapira)保羅 b.坎特(paul b.kantor),更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

本章介紹了在設計推薦系統中可能用到的主要的資料挖掘方法和技術。我們也總結了在文獻中提到的用法,提供了如何以及在哪用到它們一些粗略指導。

我們從綜述在預處理步驟可能用到的技術開始。首先,2.2.1節回顧了如何選擇合适的距離衡量名額。在後面的步驟中大部分的方法需要它。餘弦相似度和皮爾遜相關度是一般可接受最好的選擇。盡管付出了許多的努力來提高這些距離名額,但是最近的工作似乎表明距離函數的選擇不是這麼重要。然後,在2.2.2節回顧了最基礎的抽樣,其應用是為了選擇原始大資料集的子集,或者是劃分訓練和測試集。最後,我們讨論降維技術的使用,諸如,在2.2.3節中主成分分析(pca)和奇異值分解(svd)作為一種方法來解決次元災難問題。我們解釋了一些使用降維技術的成功案例,特别是在netflix大獎的環境中。

在2.3節中,我們回顧了主要的分類方法:即近鄰,決策樹,基于規則分類,貝葉斯網絡,人工神經網絡,支援向量機。我們看到,盡管knn(見2.3.1節)的cf是首選的方法,但是所有這些方法都可以應用在不同的環境中。決策樹(見2.3.2節)可以被用來導出基于物品内容的模型或者是模拟系統的特殊部分。決策規則(見2.3.3節)可以從預先存在的決策樹中推導出,或者是被用來引入商業或者是領域知識。貝葉斯網絡(見2.3.4節)是基于内容的推薦中一個流行的方法,但它也可以用來生成一個基于模型的協同過濾系統。類似的方法,人工神經網絡能夠被用來導出基于模型的推薦,也可以用來結合/混合其他幾種算法。最後,支援向量機(見2.3.6節)作為一種方法來推斷出基于内容的分類或者是導出cf模型而流行。

對于推薦系統來說,選擇合适的分類器不容易,尤其是一些感覺判斷任務和資料依賴的情況下。在cf的案例中,一些結果似乎表明基于模型方法,使用如svm或者是貝葉斯網絡,能夠稍微提高标準knn分類的性能。但是,這些結果不顯著并且很難推廣。在基于内容的推薦系統的例子中有些證據表明,在一些例子中貝葉斯網絡執行效果比簡單方法要好,如決策樹。但是,更加複雜的非線性分類,如ann或svm,執行效果是否更好還不是很清楚。

是以,給特定的推薦任務選擇合适分類器在今天仍有許多探索的地方。實際的經驗規則是從最簡單的方法做起,并且隻有在性能的提升值得時才采用複雜方法。性能增益應該平衡不同的次元,如預測精确度或計算效率。

我們在2.4節中回顧了聚類算法。聚類在推薦系統中一般被用來提高性能。不管是在使用者空間還是物品空間,較早進行聚類步驟都能減少随後要做的計算距離的操作數量。但是,這一般以較低的精确度為代價,是以處理時要慎重。事實上,通過使用降維技術(如svd)提高效率在一般的例子中是好的選擇。與分類相反,沒有那麼多的聚類算法在推薦系統的環境中使用。k-means(見2.4.1節)算法由于簡單和相對有效,很難找到實用的替代者。我們在2.4.2節中綜述了它們中一些算法,如分層聚類或消息傳遞算法。盡管這些技術還沒有應用在推薦系統中,但為将來的研究提供了有希望的出路。

最後,在2.5節中,我們描述了關聯規則并總結了它們在推薦系統的使用。關聯規則為推薦物品提供了直覺的架構,隻要有一個顯式或隐式的事務。盡管存在有效的算法來計算關聯規則,而且已經被證明比标準knn的cf準确率好,但是他們仍不是受青睐的方法。

在設計推薦系統中選擇正确的資料挖掘技術是一個複雜的任務,其一定受許多特殊問題限制。但是,我們希望本章中技術和經驗的簡短綜述能夠幫助讀者做出更加合理的決定。除此之外,我們也發現了有待進一步提高的領域和令人興奮的研究點,以及接下來有待研究的相關研究點。

繼續閱讀