diff --git a/docs/14.利用SVD简化数据.md b/docs/14.利用SVD简化数据.md index 4171ef13..2382e1af 100644 --- a/docs/14.利用SVD简化数据.md +++ b/docs/14.利用SVD简化数据.md @@ -76,6 +76,47 @@ 2. Netflix 会向其用户推荐电影 3. 新闻网站会对用户推荐新闻频道 +### 推荐系统 要点 + +> 基于协同过滤(collaborative filtering) 的推荐引擎 + +* 利用Python 实现 SVD(Numpy 有一个称为 linalg 的线性代数工具箱) +* 协同过滤:是通过将用户和其他用户的数据进行对比来实现推荐的。 +* 当知道了两个用户或两个物品之间的相似度,我们就可以利用已有的数据来预测未知用户的喜好。 + +> 基于物品的相似度和基于用户的相似度:物品比较少则选择物品相似度,用户比较少则选择用户相似度。【矩阵还是小一点好计算】 + +* 基于物品的相似度:计算物品之间的距离。【耗时会随物品数量的增加而增加】 + +![SVD公式](/images/14.SVD/使用SVD简化数据-基于物品相似度.png) + +* 基于用户的相似度:计算用户之间的距离。【耗时会随用户数量的增加而增加】 + +![SVD公式](/images/14.SVD/使用SVD简化数据-基于用户相似度.png) + +> 相似度计算 + +* inA, inB 对应的是 列向量 +1. 欧氏距离:指在m维空间中两个点之间的真实距离,或者向量的自然长度(即改点到原点的距离)。二维或三维中的欧氏距离就是两点之间的实际距离。 + * 相似度= 1/(1+欧式距离) + * `相似度= 1.0/(1.0 + la.norm(inA - inB))` + * 物品对越相似,它们的相似度值就越大。 +2. 皮尔逊相关系数:度量的是两个向量之间的相似度。 + * 相似度= 0.5 + 0.5*corrcoef() 【皮尔逊相关系数的取值范围从 -1 到 +1,通过函数0.5 + 0.5\*corrcoef()这个函数计算,把值归一化到0到1之间】 + * `相似度= 0.5 + 0.5 * corrcoef(inA, inB, rowvar = 0)[0][1]` + * 相对欧氏距离的优势:它对用户评级的量级并不敏感。 +3. 余弦相似度:计算的是两个向量夹角的余弦值。 + * 余弦值 = (A·B)/(||A||·||B||) 【余弦值的取值范围也在-1到+1之间】 + * 相似度= 0.5 + 0.5*余弦值 + * `相似度= 0.5 + 0.5*( float(inA.T*inB) / la.norm(inA)*la.norm(inB))` + * 如果夹角为90度,则相似度为0;如果两个向量的方向相同,则相似度为1.0。 + +> 推荐引擎的评价 + +* 采用交叉测试的方法。 +* 推荐引擎评价的指标: 最小均方根误差(Root mean squared error, RMSE),也称标准误差(Standard error),就是计算均方误差的平均值然后取其平方根。 + * 如果RMSE=1, 表示相差1个星级;如果RMSE=2.5, 表示相差2.5个星级。 + ### 推荐系统 原理 * 推荐系统的工作过程:给定一个用户,系统会为此用户返回N个最好的推荐菜。 @@ -83,7 +124,6 @@ 1. 寻找用户没有评级的菜肴,即在用户-物品矩阵中的0值。 2. 在用户没有评级的所有物品中,对每个物品预计一个可能的评级分数。这就是说:我们认为用户可能会对物品的打分(这就是相似度计算的初衷)。 3. 对这些物品的评分从高到低进行排序,返回前N个物品。 -* 现在我们来观测代码实现。 ### 项目案例: 餐馆菜肴推荐引擎 @@ -113,77 +153,55 @@ def loadExData2(): [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]] ``` -> 分析数据 +> 分析数据: 暂时不需要 -> 使用算法 +> 使用算法: 通过调用 recommend() 函数进行推荐 + +```python +# recommend()函数,就是推荐引擎,它默认调用standEst()函数,产生了最高的N个推荐结果。 +# 如果不指定N的大小,则默认值为3。该函数另外的参数还包括相似度计算方法和估计方法 +def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst): + # 寻找未评级的物品 + # 对给定的用户建立一个未评分的物品列表 + unratedItems = nonzero(dataMat[user, :].A == 0)[1] + # 如果不存在未评分物品,那么就退出函数 + if len(unratedItems) == 0: + return 'you rated everything' + # 物品的编号和评分值 + itemScores = [] + # 在未评分物品上进行循环 + for item in unratedItems: + estimatedScore = estMethod(dataMat, user, simMeas, item) + # 寻找前N个未评级物品,调用standEst()来产生该物品的预测得分,该物品的编号和估计值会放在一个元素列表itemScores中 + itemScores.append((item, estimatedScore)) + # 按照估计得分,对该列表进行排序并返回。列表逆排序,第一个值就是最大值 + return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[: N] +``` +#### 要点补充 - -> 基于协同过滤(collaborative filtering)的推荐引擎 - -* 利用Python 实现SVD(Numpy 有一个称为linalg的线性代数工具箱) -* 协同过滤:是通过将用户和其他用户的数据进行对比来实现推荐的。 -* 当知道了两个用户或两个物品之间的相似度,我们就可以利用已有的数据来预测未知用户的喜好。 - -> 相似度计算 - -* inA, inB 对于的为列向量 -1. 欧氏距离:指在m维空间中两个点之间的真实距离,或者向量的自然长度(即改点到原点的距离)。二维或三维中的欧氏距离就是两点之间的实际距离。 - * 相似度= 1/(1+欧式距离) - * `相似度= 1.0/(1.0 + la.norm(inA - inB))` - * 物品对越相似,它们的相似度值就越大。 -2. 皮尔逊相关系数:度量的是两个向量之间的相似度。 - * 相似度= 0.5 + 0.5*corrcoef() 【皮尔逊相关系数的取值范围从 -1 到 +1,通过函数0.5 + 0.5\*corrcoef()这个函数计算,把值归一化到0到1之间】 - * `相似度= 0.5 + 0.5 * corrcoef(inA, inB, rowvar = 0)[0][1]` - * 相对欧氏距离的优势:它对用户评级的量级并不敏感。 -3. 余弦相似度:计算的是两个向量夹角的余弦值。 - * 余弦值 = (A·B)/(||A||·||B||) 【余弦值的取值范围也在-1到+1之间】 - * 相似度= 0.5 + 0.5*余弦值 - * `相似度= 0.5 + 0.5*( float(inA.T*inB) / la.norm(inA)*la.norm(inB))` - * 如果夹角为90度,则相似度为0;如果两个向量的方向相同,则相似度为1.0。 - -> 基于物品的相似度和基于用户的相似度:物品比较少则选择物品相似度,用户比较少则选择用户相似度。【矩阵还是小一点好计算】 - -* 基于物品的相似度:计算物品之间的距离。【耗时会随物品数量的增加而增加】 - -![SVD公式](/images/14.SVD/使用SVD简化数据-基于物品相似度.png) - -* 基于用户的相似度:计算用户之间的距离。【耗时会随用户数量的增加而增加】 - -![SVD公式](/images/14.SVD/使用SVD简化数据-基于用户相似度.png) - -> 推荐引擎的评价 - -* 采用交叉测试的方法。【就是将某些已知的评分值去掉,然后进行预测,最后计算预测值和真实值之间的差异】 -* 推荐引擎评价的指标: 最小均方根误差(Root mean squared error, RMSE),也称标准误差(Standard error),就是计算均方误差的平均值然后取其平方根。 - * 如果RMSE=1, 表示相差1个星级;如果RMSE=2.5, 表示相差2.5个星级。 - -### 项目案例: 基于 SVD 的图像压缩 - - -### 要点补充 - -#### 基于内容(content-based)的推荐 +> 基于内容(content-based)的推荐 1. 通过各种标签来标记菜肴 2. 将这些属性作为相似度计算所需要的数据 3. 这就是:基于内容的推荐。 -#### 构建推荐引擎面临的挑战 - -> 问题 +> 构建推荐引擎面临的挑战 +问题 * 1)在大规模的数据集上,SVD分解会降低程序的速度 * 2)存在其他很多规模扩展性的挑战性问题,比如矩阵的表示方法和计算相似度得分消耗资源。 * 3)如何在缺乏数据时给出好的推荐-称为冷启动【简单说:用户不会喜欢一个无效的物品,而用户不喜欢的物品又无效。】 -> 建议 - +建议 * 1)在大型系统中,SVD分解(可以在程序调入时运行一次)每天运行一次或者其频率更低,并且还要离线运行。 * 2)在实际中,另一个普遍的做法就是离线计算并保存相似度得分。(物品相似度可能被用户重复的调用) * 3)冷启动问题,解决方案就是将推荐看成是搜索问题,通过各种标签/属性特征进行`基于内容的推荐`。 +### 项目案例: 基于 SVD 的图像压缩 + + * * * * **作者:[片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)** diff --git a/src/python/14.SVD/svdRec.py b/src/python/14.SVD/svdRec.py index 6586a147..b2b26ba5 100644 --- a/src/python/14.SVD/svdRec.py +++ b/src/python/14.SVD/svdRec.py @@ -100,7 +100,7 @@ def standEst(dataMat, user, simMeas, item): if userRating == 0: continue # 寻找两个用户都评级的物品 - # 变量overLap 给出的是两个物品当中已经被评分的那个元素 + # 变量 overLap 给出的是两个物品当中已经被评分的那个元素 overLap = nonzero(logical_and(dataMat[:, item].A > 0, dataMat[:, j].A > 0))[0] # 如果相似度为0,则两着没有任何重合元素,终止本次循环 if len(overLap) == 0: @@ -120,7 +120,7 @@ def standEst(dataMat, user, simMeas, item): return ratSimTotal/simTotal -# recommend()函数,就是推荐引擎,它会调用standEst()函数,产生了最高的N个推荐结果。 +# recommend()函数,就是推荐引擎,它默认调用standEst()函数,产生了最高的N个推荐结果。 # 如果不指定N的大小,则默认值为3。该函数另外的参数还包括相似度计算方法和估计方法 def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst): # 寻找未评级的物品 @@ -162,7 +162,7 @@ def svdEst(dataMat, user, simMeas, item): if userRating == 0 or j == item: continue # 相似度的计算方法也会作为一个参数传递给该函数 - similarity = simMeas(xformedItems[item, :].T,xformedItems[j, :].T) + similarity = simMeas(xformedItems[item, :].T, xformedItems[j, :].T) # for 循环中加入了一条print语句,以便了解相似度计算的进展情况。如果觉得累赘,可以去掉 print 'the %d and %d similarity is: %f' % (item, j, similarity) # 对相似度不断累加求和 @@ -252,10 +252,10 @@ if __name__ == "__main__": # 计算相似度的第一种方式 print recommend(myMat, 1, estMethod=svdEst) # 计算相似度的第二种方式 - print recommend(myMat, 1, estMethod=svdEst, simMeas=pearsSim) + # print recommend(myMat, 1, estMethod=svdEst, simMeas=pearsSim) # 默认推荐(菜馆菜肴推荐示例) - print recommend(myMat, 2) + # print recommend(myMat, 2) """ # 利用SVD提高推荐效果