天天看點

[推薦系統]資訊過載與推薦系統

我小的時候,電視隻能收到三四個台,很多那個時候的電視節目,例如《動物世界》、《射雕英雄傳》、《渴望》等等,都成了經典——可選擇的少了,能記住的反倒多了。現在的電視,動辄能收到上百個台,往好裡說是百花齊放,異彩紛呈;往差裡說是五色雜陳,泥沙俱下。可看的多了,反而不知道看什麼好,往往是“亂花漸欲迷人眼”,轉了一圈都找不到中意的節目。幾百個電視訊道就夠讓人心煩意亂了,網絡世界則更加恐怖:netflix.com上面有數萬部電影,amazon.com上面有數百萬本書,del.icio.us上面有超過10億的網頁收藏……不要說仔細選擇,把題目全看一遍,也是絕不可能的事情。可以擷取的資訊多了,在表面豐富的背後,意味着從汪洋大海中找到你所需要的資訊,其難度和成本都上升了。這些讓人頭痛的問題,就是所謂的資訊超載(information

overload)。簡單地說,資訊超載就是指過量資訊的同時呈現,遠遠超出了一般使用者的分辨和處理能力——可以選擇的多了,卻不知道如何選擇。其表現為可擷取的資訊多了,使用者體驗卻不見好,甚至變得更差。

很多工具被開發出來指導使用者如何更好地利用資訊,例如閱讀《廣播電視報》可以幫助你更好地找到自己喜歡的電視節目。因為資訊超載主要還是與網際網路有關的問題,下面我們把注意力集中在網際網路上面。為了幫助使用者通過網際網路找到自己喜歡或者有用的東西,資訊內建和資訊過濾的工具是必要的,大緻而言,這方面的發展經曆了四個階段(不是嚴格的時間先後關系)。

首先是資訊索引工具。簡而言之,資訊索引就像電話黃頁一樣,把可能有用的資訊按照某種分類或者順序組織起來,便于使用者查找。這裡給出了一個名為“化學資訊導航站”的資訊索引網站的例子(http://home.ustc.edu.cn/~wjbai/chem/chem.html)。該網站将從事化學學習和研究中可能用到的一些資源,按照一定的方式,例如學科方向或者研究機構,進行分類群組織。這類網站所引用的位址和資訊,往往都是相當穩定的,例如美國化學學會的網址,沒有重大原因肯定不會更換。這種資訊索引在專業研究領域廣泛使用,例如針對蛋白質結構和基因組問題,每年都會有一本新的手冊,公布相關研究機構的網址,和在網絡上可以公開使用的資料資源位址。資訊索引網站盡管簡單,但現在仍然廣泛使用,大家熟知的網站www.hao123.com (hao123網址之家)僅僅是羅列了一些較知名的網站,但是其網站通路流量在我國非常靠前。總的來說,資訊索引工具的優點是簡單易用,缺點是更新慢,适應能力差,缺乏使用者的個性化特征。

第二就是所謂的門戶網站,例如我們熟悉的雅虎、新浪、搜狐等等。門戶網站使用也很友善,并且集中了主流的興趣,一般的使用者總是能夠從中找到部分自己感興趣的内容。相比資訊索引,門戶網站的更新也很快。但是,門戶網站有一個同樣的弊端,就是缺少個性化設計,無法滿足使用者與主流興趣不符合的需求。

過濾海量資訊方面裡程碑的進展來自于搜尋引擎的出現。通過主題定位(輸入關鍵詞),使用者能夠比較準确地找到自己感興趣的網頁。搜尋引擎是使用最頻繁的網絡資訊過濾工具,對于我們的生活有巨大影響,事實上,google和百度已經不僅僅是網站的名稱,而是常用的動詞。但是,搜尋引擎仍然存在兩個比較嚴重的問題。首先,盡管選擇關鍵詞是完全個性化的,但是針對同一個關鍵詞,傳回的資訊對于每一個使用者仍然是相同的,事實上也是表達了主流的興趣,倘若對某關鍵詞或者關鍵詞組,使用者的興趣和主流興趣不一緻,那麼他很難從傳回的搜尋結果中找到自己感興趣的内容。另外,有一些對資訊内容的需求,是沒有辦法通過簡單的關鍵詞比對表示出來的。例如,一個使用者可能對于某種類型的小說或者詩歌非常喜歡,但這是一種整體的感覺,并不僅僅取決于某個作者或者某個主題——這種感覺難以言表,是以也就無法進行搜尋。

如果把關鍵詞和搜尋引擎作為探索資訊世界的武器,如同宇宙中有很多我們探索不到的暗物質,網際網路中也有很多“暗資訊”,這些資訊是我們(普通使用者)探尋不到的。推薦系統的基本原理,就是對使用者的曆史活動記錄進行統計分析,挖掘使用者的喜好,然後根據這些喜好,自動地從海量資訊中找到與之比對的内容,并進行推薦。推薦系統是網絡資訊過濾工具的第四個階段,也是目前解決資訊超載問題最有潛力的辦法。因為每個使用者的曆史資訊都不相同,是以推薦結果也是個性化的。

推薦系統這個概念,在上世紀九十年代就比較成熟了[1]。最近的火熱發展,來源于web2.0技術的成熟。因為有了這個技術,使用者不再是被動的網頁浏覽者,而成為主動參與者[2]。通過對網站提供的項目(包括使用者主動送出到網站上的項目)進行評分或粘貼标簽,使用者的喜好潛在地表現在這些活動中,網站可以設計相應的推薦算法,把這些喜好挖掘出來,進而向使用者推薦他們可能感興趣的項目。推薦系統的興起,還得益于它重大的商業化前景。以我國為例,現在一年網絡購物的交易量約為500億美元,而且這個數字還在激增。在基于web2.0的購物網站上,使用者除了購物以外,還可以對所購物品進行評價——這些評價可以被其他使用者看到并參考。那麼,一個自然的問題就是,能不能利用這些評價記錄,最大可能地挖掘使用者喜好,向使用者推薦他可能喜歡的商品。這不僅僅是一種商品營銷手段,而且可以增加使用者對該網站的黏着性(誰會拒絕一個了解自己喜好的網站呢)。現在推薦系統的商務化應用已經比較廣泛,例如amazon.com推薦書,netflix.com推薦電影,music.yahoo.com推薦音樂,sesamr.com推薦網址,adaptiveinfo.com

推薦新聞。此外還有推薦朋友,推薦食品等等,不一而足。

除了計算機網際網路,手機現在也成為了推薦系統的新媒介。例如可以通過手機信号發送的購物推薦資訊,使用者可以對推薦的産品和陳列的産品進行評價,這些評價資訊将成為推薦的資料基礎。因為手機号碼具有唯一性,是以每個手機的擁有者都可以被視作一個獨立使用者。随着電子貨币的發展,使用者利用信用卡在超市刷卡購物的資訊也可以被記錄,這些資訊也可以被用于推薦。

本文引用位址:http://blog.sciencenet.cn/blog-3075-25413.html 

繼續閱讀