diff --git a/bin/15_test.sh b/bin/15_test.sh deleted file mode 100644 index 17c87655..00000000 --- a/bin/15_test.sh +++ /dev/null @@ -1,19 +0,0 @@ -#!/bin/bash - -# # 测试 Mapper -# # Linux -# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py -# # # Window -# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt - -# # 测试 Reducer -# # Linux -# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py -# # # Window -# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py - -# 测试 mrjob的案例 -# 先测试一下mapper方法 -# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt -# 运行整个程序,移除 --mapper 就行 -python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt diff --git a/docs/11.使用Apriori算法进行关联分析.md b/docs/11.使用Apriori算法进行关联分析.md index 38448a28..3a66db96 100644 --- a/docs/11.使用Apriori算法进行关联分析.md +++ b/docs/11.使用Apriori算法进行关联分析.md @@ -28,13 +28,13 @@ ## Apriori 原理 假设我们一共有 4 个商品: 商品0, 商品1, 商品2, 商品3。 -所有可能的组合如下: +所有可能的情况如下: ![4种商品的所有组合](../images/11.Apriori/apachecn_apriori_goods_all_1.jpg) 如果我们计算所有组合的支持度,也需要计算 15 次。即 2^N - 1 = 2^4 - 1 = 15。 随着物品的增加,计算的次数呈指数的形式增长 ... 为了降低计算次数和时间,研究人员发现了一种所谓的 Apriori 原理,即某个项集是频繁的,那么它的所有子集也是频繁的。 例如,如果 {0, 1} 是频繁的,那么 {0}, {1} 也是频繁的。 -该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超级也是非频繁项集,如下图所示: +该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超集也是非频繁项集,如下图所示: ![非频繁项集](../images/11.Apriori/非频繁项集.png) diff --git a/docs/15.大数据与MapReduce.md b/docs/15.大数据与MapReduce.md index 89236c50..4b5cbaf6 100644 --- a/docs/15.大数据与MapReduce.md +++ b/docs/15.大数据与MapReduce.md @@ -1,4 +1,4 @@ -# 大数据与MapReduce +# 第15章 大数据与MapReduce ![大数据与MapReduce首页](/images/15.BigData_MapReduce/mr_headPage.jpg "大数据与MapReduce首页") diff --git a/docs/6.支持向量机.md b/docs/6.支持向量机.md index b09d4e3d..9d566177 100644 --- a/docs/6.支持向量机.md +++ b/docs/6.支持向量机.md @@ -9,7 +9,7 @@ * 支持向量(Support Vector)就是离分隔超平面最近的那些点。 * 机(Machine)就是表示一种算法,而不是表示机器。 -## 支持向量机 背景 +## 支持向量机 场景 * 如果把所有的点看作地雷,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。 * 所以:选择D会比B、C分隔的效果要好很多。 diff --git a/docs/8.预测数值型数据:回归.md b/docs/8.预测数值型数据:回归.md index 5c29ab47..1e3fe942 100644 --- a/docs/8.预测数值型数据:回归.md +++ b/docs/8.预测数值型数据:回归.md @@ -11,7 +11,7 @@ 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。 -假如你想要预测姐姐男友汽车的功率大小,可能会这样计算: +假如你想要预测兰博基尼跑车的功率大小,可能会这样计算: HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio @@ -88,6 +88,7 @@ HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio 数据格式为: ``` +x 1.000000 0.067732 3.176513 1.000000 0.427810 3.816464 1.000000 0.995731 4.550095 diff --git a/src/python/8.PredictiveNumericalDataRegression/regression.py b/src/python/8.PredictiveNumericalDataRegression/regression.py index 5372cdee..11ea93be 100644 --- a/src/python/8.PredictiveNumericalDataRegression/regression.py +++ b/src/python/8.PredictiveNumericalDataRegression/regression.py @@ -584,9 +584,9 @@ def regression5(): if __name__ == "__main__": - # regression1() + regression1() # regression2() # abaloneTest() # regression3() - regression4() + # regression4() # regression5() \ No newline at end of file