更新 SVD .md 文件

2026-02-13 07:15:26 +08:00 · 2017-08-30 16:14:14 +08:00
parent 36804e50c0
commit 21b11c97ed
2 changed files with 77 additions and 59 deletions
--- a/docs/14.利用SVD简化数据.md
+++ b/docs/14.利用SVD简化数据.md
@@ -76,6 +76,47 @@
 2. Netflix 会向其用户推荐电影
 3. 新闻网站会对用户推荐新闻频道

+### 推荐系统 要点
+
+> 基于协同过滤(collaborative filtering) 的推荐引擎
+
+* 利用Python 实现 SVD(Numpy 有一个称为 linalg 的线性代数工具箱)
+* 协同过滤：是通过将用户和其他用户的数据进行对比来实现推荐的。
+* 当知道了两个用户或两个物品之间的相似度，我们就可以利用已有的数据来预测未知用户的喜好。
+
+> 基于物品的相似度和基于用户的相似度：物品比较少则选择物品相似度，用户比较少则选择用户相似度。【矩阵还是小一点好计算】
+
+* 基于物品的相似度：计算物品之间的距离。【耗时会随物品数量的增加而增加】
+
+![SVD公式](/images/14.SVD/使用SVD简化数据-基于物品相似度.png)
+
+* 基于用户的相似度：计算用户之间的距离。【耗时会随用户数量的增加而增加】
+
+![SVD公式](/images/14.SVD/使用SVD简化数据-基于用户相似度.png)
+
+> 相似度计算
+
+* inA, inB 对应的是 列向量
+1. 欧氏距离：指在m维空间中两个点之间的真实距离，或者向量的自然长度（即改点到原点的距离）。二维或三维中的欧氏距离就是两点之间的实际距离。
+    * 相似度= 1/(1+欧式距离)
+    * `相似度= 1.0/(1.0 + la.norm(inA - inB))`
+    * 物品对越相似，它们的相似度值就越大。
+2. 皮尔逊相关系数：度量的是两个向量之间的相似度。
+    * 相似度= 0.5 + 0.5*corrcoef() 【皮尔逊相关系数的取值范围从 -1 到 +1，通过函数0.5 + 0.5\*corrcoef()这个函数计算，把值归一化到0到1之间】
+    * `相似度= 0.5 + 0.5 * corrcoef(inA, inB, rowvar = 0)[0][1]`
+    * 相对欧氏距离的优势：它对用户评级的量级并不敏感。
+3. 余弦相似度：计算的是两个向量夹角的余弦值。
+    * 余弦值 = (A·B)/(||A||·||B||) 【余弦值的取值范围也在-1到+1之间】
+    * 相似度= 0.5 + 0.5*余弦值
+    * `相似度= 0.5 + 0.5*( float(inA.T*inB) / la.norm(inA)*la.norm(inB))`
+    * 如果夹角为90度，则相似度为0；如果两个向量的方向相同，则相似度为1.0。
+
+> 推荐引擎的评价
+
+* 采用交叉测试的方法。
+* 推荐引擎评价的指标： 最小均方根误差(Root mean squared error, RMSE)，也称标准误差(Standard error)，就是计算均方误差的平均值然后取其平方根。
+    * 如果RMSE=1, 表示相差1个星级；如果RMSE=2.5, 表示相差2.5个星级。
+
 ### 推荐系统 原理

 * 推荐系统的工作过程：给定一个用户，系统会为此用户返回N个最好的推荐菜。
@@ -83,7 +124,6 @@
    1. 寻找用户没有评级的菜肴，即在用户-物品矩阵中的0值。
    2. 在用户没有评级的所有物品中，对每个物品预计一个可能的评级分数。这就是说：我们认为用户可能会对物品的打分（这就是相似度计算的初衷）。
    3. 对这些物品的评分从高到低进行排序，返回前N个物品。
-* 现在我们来观测代码实现。


 ### 项目案例: 餐馆菜肴推荐引擎
@@ -113,77 +153,55 @@ def loadExData2():
           [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]
 ```

-> 分析数据
+> 分析数据: 暂时不需要

-> 使用算法
+> 使用算法: 通过调用 recommend() 函数进行推荐
+
+```python
+# recommend()函数，就是推荐引擎，它默认调用standEst()函数，产生了最高的N个推荐结果。
+# 如果不指定N的大小，则默认值为3。该函数另外的参数还包括相似度计算方法和估计方法
+def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):
+    # 寻找未评级的物品
+    # 对给定的用户建立一个未评分的物品列表
+    unratedItems = nonzero(dataMat[user, :].A == 0)[1]
+    # 如果不存在未评分物品，那么就退出函数
+    if len(unratedItems) == 0:
+        return 'you rated everything'
+    # 物品的编号和评分值
+    itemScores = []
+    # 在未评分物品上进行循环
+    for item in unratedItems:
+        estimatedScore = estMethod(dataMat, user, simMeas, item)
+        # 寻找前N个未评级物品，调用standEst()来产生该物品的预测得分，该物品的编号和估计值会放在一个元素列表itemScores中
+        itemScores.append((item, estimatedScore))
+        # 按照估计得分，对该列表进行排序并返回。列表逆排序，第一个值就是最大值
+    return sorted(itemScores, key=lambda jj: jj[1], reverse=True)[: N]
+```


+#### 要点补充

-
-> 基于协同过滤(collaborative filtering)的推荐引擎
-
-* 利用Python 实现SVD(Numpy 有一个称为linalg的线性代数工具箱)
-* 协同过滤：是通过将用户和其他用户的数据进行对比来实现推荐的。
-* 当知道了两个用户或两个物品之间的相似度，我们就可以利用已有的数据来预测未知用户的喜好。
-
-> 相似度计算
-
-* inA, inB 对于的为列向量
-1. 欧氏距离：指在m维空间中两个点之间的真实距离，或者向量的自然长度（即改点到原点的距离）。二维或三维中的欧氏距离就是两点之间的实际距离。
-    * 相似度= 1/(1+欧式距离)
-    * `相似度= 1.0/(1.0 + la.norm(inA - inB))`
-    * 物品对越相似，它们的相似度值就越大。
-2. 皮尔逊相关系数：度量的是两个向量之间的相似度。
-    * 相似度= 0.5 + 0.5*corrcoef() 【皮尔逊相关系数的取值范围从 -1 到 +1，通过函数0.5 + 0.5\*corrcoef()这个函数计算，把值归一化到0到1之间】
-    * `相似度= 0.5 + 0.5 * corrcoef(inA, inB, rowvar = 0)[0][1]`
-    * 相对欧氏距离的优势：它对用户评级的量级并不敏感。
-3. 余弦相似度：计算的是两个向量夹角的余弦值。
-    * 余弦值 = (A·B)/(||A||·||B||) 【余弦值的取值范围也在-1到+1之间】
-    * 相似度= 0.5 + 0.5*余弦值
-    * `相似度= 0.5 + 0.5*( float(inA.T*inB) / la.norm(inA)*la.norm(inB))`
-    * 如果夹角为90度，则相似度为0；如果两个向量的方向相同，则相似度为1.0。
-
-> 基于物品的相似度和基于用户的相似度：物品比较少则选择物品相似度，用户比较少则选择用户相似度。【矩阵还是小一点好计算】
-
-* 基于物品的相似度：计算物品之间的距离。【耗时会随物品数量的增加而增加】
-
-![SVD公式](/images/14.SVD/使用SVD简化数据-基于物品相似度.png)
-
-* 基于用户的相似度：计算用户之间的距离。【耗时会随用户数量的增加而增加】
-
-![SVD公式](/images/14.SVD/使用SVD简化数据-基于用户相似度.png)
-
-> 推荐引擎的评价
-
-* 采用交叉测试的方法。【就是将某些已知的评分值去掉，然后进行预测，最后计算预测值和真实值之间的差异】
-* 推荐引擎评价的指标： 最小均方根误差(Root mean squared error, RMSE)，也称标准误差(Standard error)，就是计算均方误差的平均值然后取其平方根。
-    * 如果RMSE=1, 表示相差1个星级；如果RMSE=2.5, 表示相差2.5个星级。
-
-### 项目案例: 基于 SVD 的图像压缩
-
-
-### 要点补充
-
-#### 基于内容(content-based)的推荐
+> 基于内容(content-based)的推荐

 1. 通过各种标签来标记菜肴
 2. 将这些属性作为相似度计算所需要的数据
 3. 这就是：基于内容的推荐。

-#### 构建推荐引擎面临的挑战
-
-> 问题
+> 构建推荐引擎面临的挑战

+问题
 * 1）在大规模的数据集上，SVD分解会降低程序的速度
 * 2）存在其他很多规模扩展性的挑战性问题，比如矩阵的表示方法和计算相似度得分消耗资源。
 * 3）如何在缺乏数据时给出好的推荐-称为冷启动【简单说：用户不会喜欢一个无效的物品，而用户不喜欢的物品又无效。】

-> 建议
-
+建议
 * 1）在大型系统中，SVD分解(可以在程序调入时运行一次)每天运行一次或者其频率更低，并且还要离线运行。
 * 2）在实际中，另一个普遍的做法就是离线计算并保存相似度得分。(物品相似度可能被用户重复的调用)
 * 3）冷启动问题，解决方案就是将推荐看成是搜索问题，通过各种标签／属性特征进行`基于内容的推荐`。

+### 项目案例: 基于 SVD 的图像压缩
+
+
 * * *

 * **作者：[片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)**
--- a/src/python/14.SVD/svdRec.py
+++ b/src/python/14.SVD/svdRec.py
@@ -100,7 +100,7 @@ def standEst(dataMat, user, simMeas, item):
        if userRating == 0:
            continue
        # 寻找两个用户都评级的物品
-        # 变量overLap 给出的是两个物品当中已经被评分的那个元素
+        # 变量 overLap 给出的是两个物品当中已经被评分的那个元素
        overLap = nonzero(logical_and(dataMat[:, item].A > 0, dataMat[:, j].A > 0))[0]
        # 如果相似度为0，则两着没有任何重合元素，终止本次循环
        if len(overLap) == 0:
@@ -120,7 +120,7 @@ def standEst(dataMat, user, simMeas, item):
        return ratSimTotal/simTotal


-# recommend()函数，就是推荐引擎，它会调用standEst()函数，产生了最高的N个推荐结果。
+# recommend()函数，就是推荐引擎，它默认调用standEst()函数，产生了最高的N个推荐结果。
 # 如果不指定N的大小，则默认值为3。该函数另外的参数还包括相似度计算方法和估计方法
 def recommend(dataMat, user, N=3, simMeas=cosSim, estMethod=standEst):
    # 寻找未评级的物品
@@ -162,7 +162,7 @@ def svdEst(dataMat, user, simMeas, item):
        if userRating == 0 or j == item:
            continue
        # 相似度的计算方法也会作为一个参数传递给该函数
-        similarity = simMeas(xformedItems[item, :].T,xformedItems[j, :].T)
+        similarity = simMeas(xformedItems[item, :].T, xformedItems[j, :].T)
        # for 循环中加入了一条print语句，以便了解相似度计算的进展情况。如果觉得累赘，可以去掉
        print 'the %d and %d similarity is: %f' % (item, j, similarity)
        # 对相似度不断累加求和
@@ -252,10 +252,10 @@ if __name__ == "__main__":
    # 计算相似度的第一种方式
    print recommend(myMat, 1, estMethod=svdEst)
    # 计算相似度的第二种方式
-    print recommend(myMat, 1, estMethod=svdEst, simMeas=pearsSim)
+    # print recommend(myMat, 1, estMethod=svdEst, simMeas=pearsSim)

    # 默认推荐（菜馆菜肴推荐示例）
-    print recommend(myMat, 2)
+    # print recommend(myMat, 2)

    """
    # 利用SVD提高推荐效果