From a3a5cd68138979ffd917d4ba7dc867d28a96b9d2 Mon Sep 17 00:00:00 2001
From: jiangzhonglian <jiang-s@163.com>
Date: Sat, 8 Apr 2017 16:09:02 +0800
Subject: [PATCH 1/3] =?UTF-8?q?=E6=9B=B4=E6=96=B010.kmeans=E6=B3=A8?=
 =?UTF-8?q?=E9=87=8A?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 input/10.KMeans/{testSet.xtx => testSet.txt} |  0
 src/python/10.kmeans/kMeans.py               | 38 +++++++++++++++++---
 src/python/10.kmeans/{test.xtx => test.txt}  |  0
 3 files changed, 34 insertions(+), 4 deletions(-)
 rename input/10.KMeans/{testSet.xtx => testSet.txt} (100%)
 rename src/python/10.kmeans/{test.xtx => test.txt} (100%)

diff --git a/input/10.KMeans/testSet.xtx b/input/10.KMeans/testSet.txt
similarity index 100%
rename from input/10.KMeans/testSet.xtx
rename to input/10.KMeans/testSet.txt
diff --git a/src/python/10.kmeans/kMeans.py b/src/python/10.kmeans/kMeans.py
index c65561a6..af2eed9b 100644
--- a/src/python/10.kmeans/kMeans.py
+++ b/src/python/10.kmeans/kMeans.py
@@ -3,6 +3,7 @@
 
 from numpy import *
 
+
 # 从文本中构建矩阵，加载文本文件，然后处理
 def loadDataSet(fileName):    # 通用函数，用来解析以 tab 键分隔的 floats（浮点数）
     dataMat = []              # 假设最后一列是目标变量
@@ -13,10 +14,12 @@ def loadDataSet(fileName):    # 通用函数，用来解析以 tab 键分隔的
         dataMat.append(fltLine)
     return dataMat
 
+
 # 计算两个向量的欧式距离（可根据场景选择）
 def distEclud(vecA, vecB):
     return sqrt(sum(power(vecA - vecB, 2))) # la.norm(vecA-vecB)
 
+
 # 为给定数据集构建一个包含 k 个随机质心的集合。随机质心必须要在整个数据集的边界之内，这可以通过找到数据集每一维的最小和最大值来完成。然后生成 0~1.0 之间的随机数并通过取值范围和最小值，以便确保随机点在数据的边界之内。
 def randCent(dataSet, k):
     n = shape(dataSet)[1] # 列的数俩
@@ -27,13 +30,14 @@ def randCent(dataSet, k):
         centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))    # 随机生成
     return centroids
 
+
 # k-means 聚类算法
 # 该算法会创建k个质心，然后将每个点分配到最近的质心，再重新计算质心。
 # 这个过程重复数次，知道数据点的簇分配结果不再改变位置。
 # 运行结果（多次运行结果可能会不一样，可以试试，原因为随机质心的影响，但总的结果是对的， 因为数据足够相似，也可能会陷入局部最小值）
 def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
     m = shape(dataSet)[0]    # 行数
-    clusterAssment = mat(zeros((m,2)))    # 创建一个与 dataSet 行数一样，但是有两列的矩阵，用来保存簇分配结果。
+    clusterAssment = mat(zeros((m, 2)))    # 创建一个与 dataSet 行数一样，但是有两列的矩阵，用来保存簇分配结果
     centroids = createCent(dataSet, k)    # 创建质心，随机k个质心
     clusterChanged = True
     while clusterChanged:
@@ -44,10 +48,36 @@ def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):
                 distJI = distMeas(centroids[j,:],dataSet[i,:])    # 计算距离
                 if distJI < minDist:    # 如果距离比 minDist（最小距离）还小，更新 minDist（最小距离）和最小质心的 index（索引）
                     minDist = distJI; minIndex = j
-            if clusterAssment[i,0] != minIndex: clusterChanged = True
-                clusterAssment[i,:] = minIndex,minDist**2    # 更新簇分配结果为最小质心的 index（索引），minDist（最小距离）的平方
+            if clusterAssment[i, 0] != minIndex:
+                clusterChanged = True
+                clusterAssment[i, :] = minIndex,minDist**2    # 更新簇分配结果为最小质心的 index（索引），minDist（最小距离）的平方
         print centroids
         for cent in range(k): # 更新质心
-            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]] # 获取该簇中的所有点
+            ptsInClust = dataSet[nonzero(clusterAssment[:, 0].A==cent)[0]] # 获取该簇中的所有点
             centroids[cent,:] = mean(ptsInClust, axis=0) # 将质心修改为簇中所有点的平均值，mean 就是求平均值的
     return centroids, clusterAssment
+
+
+if __name__ == "__main__":
+
+    datMat = mat(loadDataSet('input/10.KMeans/testSet.txt'))
+
+    # 测试 randCent() 函数是否正常运行。
+    # 首先，先看一下矩阵中的最大值与最小值
+    print 'min(datMat[:, 0])=', min(datMat[:, 0])
+    print 'min(datMat[:, 1])=', min(datMat[:, 1])
+    print 'max(datMat[:, 1])=', max(datMat[:, 1])
+    print 'max(datMat[:, 0])=', max(datMat[:, 0])
+
+    # 然后看看 randCent() 函数能否生成 min 到 max 之间的值
+    # print 'randCent(datMat, 2)=', randCent(datMat, 2)
+
+    # 最后测试一下距离计算方法
+    # print ' distEclud(datMat[0], datMat[1])=', distEclud(datMat[0], datMat[1])
+
+    # 该算法会创建k个质心，然后将每个点分配到最近的质心，再重新计算质心。
+    # 这个过程重复数次，知道数据点的簇分配结果不再改变位置。
+    # 运行结果（多次运行结果可能会不一样，可以试试，原因为随机质心的影响，但总的结果是对的， 因为数据足够相似）
+    myCentroids, clustAssing = kMeans(datMat, 4)
+
+    # print 'centroids=', myCentroids
diff --git a/src/python/10.kmeans/test.xtx b/src/python/10.kmeans/test.txt
similarity index 100%
rename from src/python/10.kmeans/test.xtx
rename to src/python/10.kmeans/test.txt

From 87836f0f7b057f18d1559d08fe3cc20acf944417 Mon Sep 17 00:00:00 2001
From: jiangzhonglian <jiang-s@163.com>
Date: Sat, 8 Apr 2017 16:59:33 +0800
Subject: [PATCH 2/3] =?UTF-8?q?=E6=9B=B4=E6=96=B013.PCA=E6=B3=A8=E9=87=8A?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 docs/13.利用PCA来简化数据.md |  2 +-
 src/python/13.PCA/pca.py     | 48 ++++++++++++++++++------------------
 2 files changed, 25 insertions(+), 25 deletions(-)

diff --git a/docs/13.利用PCA来简化数据.md b/docs/13.利用PCA来简化数据.md
index 956d96a7..d0b77f1e 100644
--- a/docs/13.利用PCA来简化数据.md
+++ b/docs/13.利用PCA来简化数据.md
@@ -83,7 +83,7 @@
 
 ```
 降维技术使得数据变的更易使用，并且它们往往能够去除数据中的噪音，使得其他机器学习任务更加精确。
-降维往往作为与处理步骤，在数据应用到其他算法之前清洗数据。
+降维往往作为预处理步骤，在数据应用到其他算法之前清洗数据。
 比较流行的降维技术： 独立主成分分析、因子分析 和 主成分分析， 其中又以主成分分析应用最广泛。
 
 本章中的PCA将所有的数据集都调入了内存，如果无法做到，就需要其他的方法来寻找其特征值。
diff --git a/src/python/13.PCA/pca.py b/src/python/13.PCA/pca.py
index 0b682240..6be185a0 100644
--- a/src/python/13.PCA/pca.py
+++ b/src/python/13.PCA/pca.py
@@ -117,31 +117,31 @@ if __name__ == "__main__":
 
     # 利用PCA对半导体制造数据降维
     dataMat = replaceNanWithMean()
-    # print shape(dataMat)
-    # lowDmat, reconMat = pca(dataMat, 40)
-    # print shape(lowDmat)
-    # show_picture(dataMat, reconMat)
+    print shape(dataMat)
+    lowDmat, reconMat = pca(dataMat, 20)
+    print shape(lowDmat)
+    show_picture(dataMat, reconMat)
 
-    meanVals = mean(dataMat, axis=0)
-    meanRemoved = dataMat-meanVals
-    covMat = cov(meanRemoved, rowvar=0)
-    eigvals, eigVects = linalg.eig(mat(covMat))
-    eigValInd = argsort(eigvals)
+    # meanVals = mean(dataMat, axis=0)
+    # meanRemoved = dataMat-meanVals
+    # covMat = cov(meanRemoved, rowvar=0)
+    # eigvals, eigVects = linalg.eig(mat(covMat))
+    # eigValInd = argsort(eigvals)
 
-    topNfeat = 20
-    eigValInd = eigValInd[:-(topNfeat+1):-1]
-    cov_all_score = sum(eigvals)
-    sum_cov_score = 0
-    for i in range(0, len(eigValInd)):
-        line_cov_score = eigvals[eigValInd[i]]
-        sum_cov_score += line_cov_score
-        '''
-        我们发现其中有超过20%的特征值都是0。
-        这就意味着这些特征都是其他特征的副本，也就是说，它们可以通过其他特征来表示，而本身并没有提供额外的信息。
+    # topNfeat = 20
+    # eigValInd = eigValInd[:-(topNfeat+1):-1]
+    # cov_all_score = sum(eigvals)
+    # sum_cov_score = 0
+    # for i in range(0, len(eigValInd)):
+    #     line_cov_score = eigvals[eigValInd[i]]
+    #     sum_cov_score += line_cov_score
+    #     '''
+    #     我们发现其中有超过20%的特征值都是0。
+    #     这就意味着这些特征都是其他特征的副本，也就是说，它们可以通过其他特征来表示，而本身并没有提供额外的信息。
 
-        最前面15个值的数量级大于10^5，实际上那以后的值都变得非常小。
-        这就相当于告诉我们只有部分重要特征，重要特征的数目也很快就会下降。
+    #     最前面15个值的数量级大于10^5，实际上那以后的值都变得非常小。
+    #     这就相当于告诉我们只有部分重要特征，重要特征的数目也很快就会下降。
 
-        最后，我们可能会注意到有一些小的负值，他们主要源自数值误差应该四舍五入成0.
-        '''
-        print '主成分：%s, 方差占比：%s%%, 累积方差占比：%s%%' % (format(i+1, '2.0f'), format(line_cov_score/cov_all_score*100, '4.1f'), format(sum_cov_score/cov_all_score*100, '4.1f'))
+    #     最后，我们可能会注意到有一些小的负值，他们主要源自数值误差应该四舍五入成0.
+    #     '''
+    #     print '主成分：%s, 方差占比：%s%%, 累积方差占比：%s%%' % (format(i+1, '2.0f'), format(line_cov_score/cov_all_score*100, '4.1f'), format(sum_cov_score/cov_all_score*100, '4.1f'))

From 6bdfd5a42072ecac8fb2fff6fea45323b1dad1e5 Mon Sep 17 00:00:00 2001
From: jiangzhonglian <jiang-s@163.com>
Date: Sat, 8 Apr 2017 18:06:58 +0800
Subject: [PATCH 3/3] =?UTF-8?q?=E6=9B=B4=E6=96=B015.mapreduce=E7=9A=84?=
 =?UTF-8?q?=E4=BD=BF=E7=94=A8=E6=B3=A8=E8=A7=A3?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 src/python/15.BigData_MapReduce/mrMean.py      | 18 +++++++++++-------
 .../15.BigData_MapReduce/mrMeanMapper.py       |  4 +++-
 .../15.BigData_MapReduce/mrMeanReducer.py      | 11 +++++++----
 3 files changed, 21 insertions(+), 12 deletions(-)

diff --git a/src/python/15.BigData_MapReduce/mrMean.py b/src/python/15.BigData_MapReduce/mrMean.py
index 0e052778..04dd7d1e 100644
--- a/src/python/15.BigData_MapReduce/mrMean.py
+++ b/src/python/15.BigData_MapReduce/mrMean.py
@@ -1,3 +1,6 @@
+#!/usr/bin/python
+# coding:utf8
+
 '''
 Created on 2017-04-07
 
@@ -5,26 +8,27 @@ Created on 2017-04-07
 '''
 from mrjob.job import MRJob
 
+
 class MRmean(MRJob):
     def __init__(self, *args, **kwargs): # 对数据初始化
         super(MRmean, self).__init__(*args, **kwargs)
         self.inCount = 0
         self.inSum = 0
         self.inSqSum = 0
-    
+
     def map(self, key, val): # 需要 2 个参数，求数据的和与平方和
         if False: yield
         inVal = float(val)
         self.inCount += 1
         self.inSum += inVal
         self.inSqSum += inVal*inVal
-        
+
     def map_final(self): # 计算数据的平均值，平方的均值，并返回
         mn = self.inSum/self.inCount
         mnSq = self.inSqSum/self.inCount
         yield (1, [self.inCount, mn, mnSq])
 
-    def reduce(self, key, packedValues): # 
+    def reduce(self, key, packedValues):
         cumVal=0.0; cumSumSq=0.0; cumN=0.0
         for valArr in packedValues: # 从输入流中获取值
             nj = float(valArr[0])
@@ -34,10 +38,10 @@ class MRmean(MRJob):
         mean = cumVal/cumN
         var = (cumSumSq - 2*mean*cumVal + cumN*mean*mean)/cumN
         yield (mean, var) # 发出平均值和方差
-        
+
     def steps(self):
-        return ([self.mr(mapper=self.map, mapper_final=self.map_final,\
-                          reducer=self.reduce,)])
+        return ([self.mr(mapper=self.map, mapper_final=self.map_final, reducer=self.reduce,)])
+
 
 if __name__ == '__main__':
-    MRmean.run()
\ No newline at end of file
+    MRmean.run()
diff --git a/src/python/15.BigData_MapReduce/mrMeanMapper.py b/src/python/15.BigData_MapReduce/mrMeanMapper.py
index 67f7d7e3..8f05945d 100644
--- a/src/python/15.BigData_MapReduce/mrMeanMapper.py
+++ b/src/python/15.BigData_MapReduce/mrMeanMapper.py
@@ -1,3 +1,5 @@
+#!/usr/bin/python
+# coding:utf8
 '''
 Created on 2017-04-06
 Machine Learning in Action Chapter 18
@@ -30,4 +32,4 @@ sqInput = power(input,2)				# 将矩阵的数据分别求 平方，即 2次方
 
 # 输出 数据的个数，n个数据的均值，n个数据平方之后的均值
 print ("%d\t%f\t%f" % (numInputs, mean(input), mean(sqInput))) #计算均值
-print ("report: still alive", file=sys.stderr)
\ No newline at end of file
+print >> sys.stderr, "report: still alive"
diff --git a/src/python/15.BigData_MapReduce/mrMeanReducer.py b/src/python/15.BigData_MapReduce/mrMeanReducer.py
index cc06c5d0..fe3a61c5 100644
--- a/src/python/15.BigData_MapReduce/mrMeanReducer.py
+++ b/src/python/15.BigData_MapReduce/mrMeanReducer.py
@@ -1,3 +1,6 @@
+#!/usr/bin/python
+# coding:utf8
+
 '''
 Created on 2017-04-06
 Machine Learning in Action Chapter 18
@@ -7,9 +10,9 @@ Map Reduce Job for Hadoop Streaming
 
 
 '''
-	mapper 接受原始的输入并产生中间值传递给 reducer。
-	很多的mapper是并行执行的，所以需要将这些mapper的输出合并成一个值。
-	即：将中间的 key/value 对进行组合。
+    mapper 接受原始的输入并产生中间值传递给 reducer。
+    很多的mapper是并行执行的，所以需要将这些mapper的输出合并成一个值。
+    即：将中间的 key/value 对进行组合。
 '''
 import sys
 from numpy import mat, mean, power
@@ -40,4 +43,4 @@ meanSq = cumSumSq/cumN
 
 #输出 数据总量，均值，平方的均值（方差）
 print ("%d\t%f\t%f" % (cumN, mean, meanSq))
-print ("report: still alive", file=sys.stderr) 
\ No newline at end of file
+print >> sys.stderr, "report: still alive"