建構資料集

users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 使用者購買記錄資料集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]
import pandas as pd

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)
print(df)

相似度計算

# 直接計算某兩項的傑卡德相似系數
from sklearn.metrics import jaccard_score
# 計算Item A 和Item B的相似度
print(jaccard_score(df["Item A"], df["Item B"]))

協同過濾推薦算法代碼實作建構資料集相似度計算User-Based CFItem-Based CF

# 計算所有的資料兩兩的傑卡德相似系數
from sklearn.metrics.pairwise import pairwise_distances
# 計算使用者間相似度
user_similar = 1 - pairwise_distances(df.values, metric="jaccard")
user_similar = pd.DataFrame(user_similar, columns=users, index=users)
print("使用者之間的兩兩相似度：")
print(user_similar)

協同過濾推薦算法代碼實作建構資料集相似度計算User-Based CFItem-Based CF

# 計算物品間相似度
item_similar = 1 - pairwise_distances(df.values, metric="jaccard")
item_similar = pd.DataFrame(item_similar, columns=items, index=items)
print("物品之間的兩兩相似度：")
print(item_similar)

User-Based CF

import pandas as pd
import numpy as np
from pprint import pprint

users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 使用者購買記錄資料集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)

# 計算所有的資料兩兩的傑卡德相似系數
from sklearn.metrics.pairwise import pairwise_distances
# 計算使用者間相似度
user_similar = 1 - pairwise_distances(df.values, metric="jaccard")
user_similar = pd.DataFrame(user_similar, columns=users, index=users)
print("使用者之間的兩兩相似度：")
print(user_similar)

topN_users = {}
# 周遊每一行資料
for i in user_similar.index:
    # 取出每一列資料，并删除自身，然後排序資料
    _df = user_similar.loc[i].drop([i])
    _df_sorted = _df.sort_values(ascending=False)

    top2 = list(_df_sorted.index[:2])
    topN_users[i] = top2

print("Top2相似使用者：")
pprint(topN_users)

這部分代碼由于python2和python3的沖突還沒有改完

rs_results = {}
# 建構推薦結果
for user, sim_users in topN_users.items():
    rs_result = set()    # 存儲推薦結果
    for sim_user in sim_users:
        # 建構初始的推薦結果
        rs_result = rs_result.union(set(df.ix[sim_user].replace(0,np.nan).dropna().index))
    # 過濾掉已經購買過的物品
    rs_result -= set(df.ix[user].replace(0,np.nan).dropna().index)
    rs_results[user] = rs_result
print("最終推薦結果：")
pprint(rs_results)

Item-Based CF

import pandas as pd
import numpy as np
from pprint import pprint

users = ["User1", "User2", "User3", "User4", "User5"]
items = ["Item A", "Item B", "Item C", "Item D", "Item E"]
# 使用者購買記錄資料集
datasets = [
    [1,0,1,1,0],
    [1,0,0,1,1],
    [1,0,1,0,0],
    [0,1,0,1,1],
    [1,1,1,0,1],
]

df = pd.DataFrame(datasets,
                  columns=items,
                  index=users)

# 計算所有的資料兩兩的傑卡德相似系數
from sklearn.metrics.pairwise import pairwise_distances
# 計算物品間相似度
item_similar = 1 - pairwise_distances(df.T, metric="jaccard")
item_similar = pd.DataFrame(item_similar, columns=items, index=items)
print("物品之間的兩兩相似度：")
print(item_similar)

topN_items = {}
# 周遊每一行資料
for i in item_similar.index:
    # 取出每一列資料，并删除自身，然後排序資料
    _df = item_similar.loc[i].drop([i])
    _df_sorted = _df.sort_values(ascending=False)

    top2 = list(_df_sorted.index[:2])
    topN_items[i] = top2

print("Top2相似物品：")
pprint(topN_items)

rs_results = {}
# 建構推薦結果
for user in df.index:    # 周遊所有使用者
    rs_result = set()
    for item in df.ix[user].replace(0,np.nan).dropna().index:   # 取出每個使用者目前已購物品清單
        # 根據每個物品找出最相似的TOP-N物品，建構初始推薦結果
        rs_result = rs_result.union(topN_items[item])
    # 過濾掉使用者已購的物品
    rs_result -= set(df.ix[user].replace(0,np.nan).dropna().index)
    # 添加到結果中
    rs_results[user] = rs_result

print("最終推薦結果：")
pprint(rs_results)

協同過濾推薦算法代碼實作建構資料集相似度計算User-Based CFItem-Based CF

協同過濾推薦算法代碼實作

建構資料集

相似度計算

User-Based CF

Item-Based CF

繼續閱讀

深度學習推薦系統-筆記08：傳統推薦算法發展彙總

推薦系統系列——矩陣分解與FM算法矩陣分解算法邏輯回歸算法優缺點FM模型算法FFM算法

【Spark Mllib】K-均值聚類——電影類型K-均值聚類資料特征提取

一篇文章讓你精通Java JSP規範

世界因大資料而改變

Spark的RDD轉換算子-雙value型Spark的RDD轉換算子-雙value型

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

項亮《推薦系統實踐》——使用LFM隐語義模型進行Top-N推薦使用LFM（Latent factor model）隐語義模型進行Top-N推薦

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Spark在windows環境裡跑時報錯找不到org.apache.hadoop.fs.FSDataInputStream

Spark流式分析系統實作流式實時日志分析系統

Scala和Java二種方式實戰Spark Streaming開發

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

Spark實作wordcount

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結