Merge pull request #77 from jiangzhonglian/master

更新10.kmeans 13.PCA 15.mapreduce的使用注解
2026-06-30 18:26:14 +08:00 · 2017-04-08 23:01:26 +08:00
parent 4966721206 6bdfd5a420
commit 238a2940fc
8 changed files with 80 additions and 41 deletions
--- a/docs/13.利用PCA来简化数据.md
+++ b/docs/13.利用PCA来简化数据.md
@@ -83,7 +83,7 @@

 ```
 降维技术使得数据变的更易使用，并且它们往往能够去除数据中的噪音，使得其他机器学习任务更加精确。
-降维往往作为与处理步骤，在数据应用到其他算法之前清洗数据。
+降维往往作为预处理步骤，在数据应用到其他算法之前清洗数据。
 比较流行的降维技术： 独立主成分分析、因子分析 和 主成分分析， 其中又以主成分分析应用最广泛。

 本章中的PCA将所有的数据集都调入了内存，如果无法做到，就需要其他的方法来寻找其特征值。
--- a/input/10.KMeans/testSet.txt
+++ b/input/10.KMeans/testSet.txt
--- a/src/python/10.kmeans/kMeans.py
+++ b/src/python/10.kmeans/kMeans.py
@@ -3,6 +3,7 @@

 from numpy import *

+
 # 从文本中构建矩阵，加载文本文件，然后处理
 def loadDataSet(fileName):    # 通用函数，用来解析以 tab 键分隔的 floats（浮点数）
    dataMat = []              # 假设最后一列是目标变量
@@ -13,10 +14,12 @@ def loadDataSet(fileName):    # 通用函数，用来解析以 tab 键分隔的
        dataMat.append(fltLine)
    return dataMat

+
 # 计算两个向量的欧式距离（可根据场景选择）
 def distEclud(vecA, vecB):
    return sqrt(sum(power(vecA - vecB, 2))) # la.norm(vecA-vecB)

+
 # 为给定数据集构建一个包含 k 个随机质心的集合。随机质心必须要在整个数据集的边界之内，这可以通过找到数据集每一维的最小和最大值来完成。然后生成 0~1.0 之间的随机数并通过取值范围和最小值，以便确保随机点在数据的边界之内。
 def randCent(dataSet, k):
    n = shape(dataSet)[1] # 列的数俩
@@ -27,13 +30,14 @@ def randCent(dataSet, k):
        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))    # 随机生成
    return centroids

+
 # k-means 聚类算法
 # 该算法会创建k个质心，然后将每个点分配到最近的质心，再重新计算质心。
 # 这个过程重复数次，知道数据点的簇分配结果不再改变位置。
 # 运行结果（多次运行结果可能会不一样，可以试试，原因为随机质心的影响，但总的结果是对的， 因为数据足够相似，也可能会陷入局部最小值）
 def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
    m = shape(dataSet)[0]    # 行数
-    clusterAssment = mat(zeros((m,2)))    # 创建一个与 dataSet 行数一样，但是有两列的矩阵，用来保存簇分配结果。
+    clusterAssment = mat(zeros((m, 2)))    # 创建一个与 dataSet 行数一样，但是有两列的矩阵，用来保存簇分配结果
    centroids = createCent(dataSet, k)    # 创建质心，随机k个质心
    clusterChanged = True
    while clusterChanged:
@@ -44,10 +48,36 @@ def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
                distJI = distMeas(centroids[j,:],dataSet[i,:])    # 计算距离
                if distJI < minDist:    # 如果距离比 minDist（最小距离）还小，更新 minDist（最小距离）和最小质心的 index（索引）
                    minDist = distJI; minIndex = j
-            if clusterAssment[i,0] != minIndex: clusterChanged = True
-                clusterAssment[i,:] = minIndex,minDist**2    # 更新簇分配结果为最小质心的 index（索引），minDist（最小距离）的平方
+            if clusterAssment[i, 0] != minIndex:
+                clusterChanged = True
+                clusterAssment[i, :] = minIndex,minDist**2    # 更新簇分配结果为最小质心的 index（索引），minDist（最小距离）的平方
        print centroids
        for cent in range(k): # 更新质心
-            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]] # 获取该簇中的所有点
+            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A==cent)[0]] # 获取该簇中的所有点
            centroids[cent,:] = mean(ptsInClust, axis=0) # 将质心修改为簇中所有点的平均值，mean 就是求平均值的
    return centroids, clusterAssment
+
+
+if __name__ == "__main__":
+
+    datMat = mat(loadDataSet('input/10.KMeans/testSet.txt'))
+
+    # 测试 randCent() 函数是否正常运行。
+    # 首先，先看一下矩阵中的最大值与最小值
+    print 'min(datMat[:, 0])=', min(datMat[:, 0])
+    print 'min(datMat[:, 1])=', min(datMat[:, 1])
+    print 'max(datMat[:, 1])=', max(datMat[:, 1])
+    print 'max(datMat[:, 0])=', max(datMat[:, 0])
+
+    # 然后看看 randCent() 函数能否生成 min 到 max 之间的值
+    # print 'randCent(datMat, 2)=', randCent(datMat, 2)
+
+    # 最后测试一下距离计算方法
+    # print ' distEclud(datMat[0], datMat[1])=', distEclud(datMat[0], datMat[1])
+
+    # 该算法会创建k个质心，然后将每个点分配到最近的质心，再重新计算质心。
+    # 这个过程重复数次，知道数据点的簇分配结果不再改变位置。
+    # 运行结果（多次运行结果可能会不一样，可以试试，原因为随机质心的影响，但总的结果是对的， 因为数据足够相似）
+    myCentroids, clustAssing = kMeans(datMat, 4)
+
+    # print 'centroids=', myCentroids
--- a/src/python/10.kmeans/test.txt
+++ b/src/python/10.kmeans/test.txt
--- a/src/python/13.PCA/pca.py
+++ b/src/python/13.PCA/pca.py
@@ -117,31 +117,31 @@ if __name__ == "__main__":

    # 利用PCA对半导体制造数据降维
    dataMat = replaceNanWithMean()
-    # print shape(dataMat)
-    # lowDmat, reconMat = pca(dataMat, 40)
-    # print shape(lowDmat)
-    # show_picture(dataMat, reconMat)
+    print shape(dataMat)
+    lowDmat, reconMat = pca(dataMat, 20)
+    print shape(lowDmat)
+    show_picture(dataMat, reconMat)

-    meanVals = mean(dataMat, axis=0)
-    meanRemoved = dataMat-meanVals
-    covMat = cov(meanRemoved, rowvar=0)
-    eigvals, eigVects = linalg.eig(mat(covMat))
-    eigValInd = argsort(eigvals)
+    # meanVals = mean(dataMat, axis=0)
+    # meanRemoved = dataMat-meanVals
+    # covMat = cov(meanRemoved, rowvar=0)
+    # eigvals, eigVects = linalg.eig(mat(covMat))
+    # eigValInd = argsort(eigvals)

-    topNfeat = 20
-    eigValInd = eigValInd[:-(topNfeat+1):-1]
-    cov_all_score = sum(eigvals)
-    sum_cov_score = 0
-    for i in range(0, len(eigValInd)):
-        line_cov_score = eigvals[eigValInd[i]]
-        sum_cov_score += line_cov_score
-        '''
-        我们发现其中有超过20%的特征值都是0。
-        这就意味着这些特征都是其他特征的副本，也就是说，它们可以通过其他特征来表示，而本身并没有提供额外的信息。
+    # topNfeat = 20
+    # eigValInd = eigValInd[:-(topNfeat+1):-1]
+    # cov_all_score = sum(eigvals)
+    # sum_cov_score = 0
+    # for i in range(0, len(eigValInd)):
+    #     line_cov_score = eigvals[eigValInd[i]]
+    #     sum_cov_score += line_cov_score
+    #     '''
+    #     我们发现其中有超过20%的特征值都是0。
+    #     这就意味着这些特征都是其他特征的副本，也就是说，它们可以通过其他特征来表示，而本身并没有提供额外的信息。

-        最前面15个值的数量级大于10^5，实际上那以后的值都变得非常小。
-        这就相当于告诉我们只有部分重要特征，重要特征的数目也很快就会下降。
+    #     最前面15个值的数量级大于10^5，实际上那以后的值都变得非常小。
+    #     这就相当于告诉我们只有部分重要特征，重要特征的数目也很快就会下降。

-        最后，我们可能会注意到有一些小的负值，他们主要源自数值误差应该四舍五入成0.
-        '''
-        print '主成分：%s, 方差占比：%s%%, 累积方差占比：%s%%' % (format(i+1, '2.0f'), format(line_cov_score/cov_all_score*100, '4.1f'), format(sum_cov_score/cov_all_score*100, '4.1f'))
+    #     最后，我们可能会注意到有一些小的负值，他们主要源自数值误差应该四舍五入成0.
+    #     '''
+    #     print '主成分：%s, 方差占比：%s%%, 累积方差占比：%s%%' % (format(i+1, '2.0f'), format(line_cov_score/cov_all_score*100, '4.1f'), format(sum_cov_score/cov_all_score*100, '4.1f'))
--- a/src/python/15.BigData_MapReduce/mrMean.py
+++ b/src/python/15.BigData_MapReduce/mrMean.py
@@ -1,3 +1,6 @@
+#!/usr/bin/python
+# coding:utf8
+
 '''
 Created on 2017-04-07

@@ -5,26 +8,27 @@ Created on 2017-04-07
 '''
 from mrjob.job import MRJob

+
 class MRmean(MRJob):
    def __init__(self, *args, **kwargs): # 对数据初始化
        super(MRmean, self).__init__(*args, **kwargs)
        self.inCount = 0
        self.inSum = 0
        self.inSqSum = 0
-    
+
    def map(self, key, val): # 需要 2 个参数，求数据的和与平方和
        if False: yield
        inVal = float(val)
        self.inCount += 1
        self.inSum += inVal
        self.inSqSum += inVal*inVal
-        
+
    def map_final(self): # 计算数据的平均值，平方的均值，并返回
        mn = self.inSum/self.inCount
        mnSq = self.inSqSum/self.inCount
        yield (1, [self.inCount, mn, mnSq])

-    def reduce(self, key, packedValues): # 
+    def reduce(self, key, packedValues):
        cumVal=0.0; cumSumSq=0.0; cumN=0.0
        for valArr in packedValues: # 从输入流中获取值
            nj = float(valArr[0])
@@ -34,10 +38,10 @@ class MRmean(MRJob):
        mean = cumVal/cumN
        var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN
        yield (mean, var) # 发出平均值和方差
-        
+
    def steps(self):
-        return ([self.mr(mapper=self.map, mapper_final=self.map_final,\
-                          reducer=self.reduce,)])
+        return ([self.mr(mapper=self.map, mapper_final=self.map_final, reducer=self.reduce,)])
+

 if __name__ == '__main__':
-    MRmean.run()
+    MRmean.run()
--- a/src/python/15.BigData_MapReduce/mrMeanMapper.py
+++ b/src/python/15.BigData_MapReduce/mrMeanMapper.py
@@ -1,3 +1,5 @@
+#!/usr/bin/python
+# coding:utf8
 '''
 Created on 2017-04-06
 Machine Learning in Action Chapter 18
@@ -30,4 +32,4 @@ sqInput = power(input,2)				# 将矩阵的数据分别求 平方，即 2次方

 # 输出 数据的个数，n个数据的均值，n个数据平方之后的均值
 print ("%d\t%f\t%f" % (numInputs, mean(input), mean(sqInput))) #计算均值
-print ("report: still alive", file=sys.stderr)
+print >> sys.stderr, "report: still alive"
--- a/src/python/15.BigData_MapReduce/mrMeanReducer.py
+++ b/src/python/15.BigData_MapReduce/mrMeanReducer.py
@@ -1,3 +1,6 @@
+#!/usr/bin/python
+# coding:utf8
+
 '''
 Created on 2017-04-06
 Machine Learning in Action Chapter 18
@@ -7,9 +10,9 @@ Map Reduce Job for Hadoop Streaming


 '''
-	mapper 接受原始的输入并产生中间值传递给 reducer。
-	很多的mapper是并行执行的，所以需要将这些mapper的输出合并成一个值。
-	即：将中间的 key/value 对进行组合。
+    mapper 接受原始的输入并产生中间值传递给 reducer。
+    很多的mapper是并行执行的，所以需要将这些mapper的输出合并成一个值。
+    即：将中间的 key/value 对进行组合。
 '''
 import sys
 from numpy import mat, mean, power
@@ -40,4 +43,4 @@ meanSq = cumSumSq/cumN

 #输出 数据总量，均值，平方的均值（方差）
 print ("%d\t%f\t%f" % (cumN, mean, meanSq))
-print ("report: still alive", file=sys.stderr) 
+print >> sys.stderr, "report: still alive"