From 297965375c791c368b7d3f0e28bd134a43c15daf Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Fri, 15 Sep 2017 21:57:59 +0800 Subject: [PATCH 1/5] =?UTF-8?q?=E6=9B=B4=E6=96=B0=2015=E7=AB=A0=E7=9A=84?= =?UTF-8?q?=E6=A0=87=E9=A2=98?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/15.大数据与MapReduce.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/15.大数据与MapReduce.md b/docs/15.大数据与MapReduce.md index 89236c50..4b5cbaf6 100644 --- a/docs/15.大数据与MapReduce.md +++ b/docs/15.大数据与MapReduce.md @@ -1,4 +1,4 @@ -# 大数据与MapReduce +# 第15章 大数据与MapReduce ![大数据与MapReduce首页](/images/15.BigData_MapReduce/mr_headPage.jpg "大数据与MapReduce首页") From 89ead37c019bdc16fbe9dd03fdfd86fa1cbdb360 Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Sat, 16 Sep 2017 00:21:45 +0800 Subject: [PATCH 2/5] =?UTF-8?q?=E5=88=A0=E9=99=A4=20bin=E6=96=87=E4=BB=B6?= =?UTF-8?q?=E5=92=8C=E7=9B=B8=E5=BA=94=E7=9A=84=E6=B5=8B=E8=AF=95=E8=84=9A?= =?UTF-8?q?=E6=9C=AC?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- bin/15_test.sh | 19 ------------------- 1 file changed, 19 deletions(-) delete mode 100644 bin/15_test.sh diff --git a/bin/15_test.sh b/bin/15_test.sh deleted file mode 100644 index 17c87655..00000000 --- a/bin/15_test.sh +++ /dev/null @@ -1,19 +0,0 @@ -#!/bin/bash - -# # 测试 Mapper -# # Linux -# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py -# # # Window -# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt - -# # 测试 Reducer -# # Linux -# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py -# # # Window -# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py - -# 测试 mrjob的案例 -# 先测试一下mapper方法 -# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt -# 运行整个程序,移除 --mapper 就行 -python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt From 2b2f9f2d48e7d1dd622d9313d34639ffff3a0a09 Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Tue, 19 Sep 2017 14:47:04 +0800 Subject: [PATCH 3/5] =?UTF-8?q?=E7=BC=96=E8=BE=91=20=E6=94=AF=E6=8C=81?= =?UTF-8?q?=E5=90=91=E9=87=8F=E6=9C=BA?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/6.支持向量机.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/docs/6.支持向量机.md b/docs/6.支持向量机.md index b09d4e3d..9d566177 100644 --- a/docs/6.支持向量机.md +++ b/docs/6.支持向量机.md @@ -9,7 +9,7 @@ * 支持向量(Support Vector)就是离分隔超平面最近的那些点。 * 机(Machine)就是表示一种算法,而不是表示机器。 -## 支持向量机 背景 +## 支持向量机 场景 * 如果把所有的点看作地雷,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。 * 所以:选择D会比B、C分隔的效果要好很多。 From 7a644ec4bd346f3d404fc674c142bf79e4edfb65 Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Tue, 19 Sep 2017 16:09:17 +0800 Subject: [PATCH 4/5] =?UTF-8?q?=E4=BF=AE=E6=94=B9=20Apriori=20=E7=AE=97?= =?UTF-8?q?=E6=B3=95=E7=9A=84=E6=96=87=E6=A1=A3?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/11.使用Apriori算法进行关联分析.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/docs/11.使用Apriori算法进行关联分析.md b/docs/11.使用Apriori算法进行关联分析.md index 38448a28..3a66db96 100644 --- a/docs/11.使用Apriori算法进行关联分析.md +++ b/docs/11.使用Apriori算法进行关联分析.md @@ -28,13 +28,13 @@ ## Apriori 原理 假设我们一共有 4 个商品: 商品0, 商品1, 商品2, 商品3。 -所有可能的组合如下: +所有可能的情况如下: ![4种商品的所有组合](../images/11.Apriori/apachecn_apriori_goods_all_1.jpg) 如果我们计算所有组合的支持度,也需要计算 15 次。即 2^N - 1 = 2^4 - 1 = 15。 随着物品的增加,计算的次数呈指数的形式增长 ... 为了降低计算次数和时间,研究人员发现了一种所谓的 Apriori 原理,即某个项集是频繁的,那么它的所有子集也是频繁的。 例如,如果 {0, 1} 是频繁的,那么 {0}, {1} 也是频繁的。 -该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超级也是非频繁项集,如下图所示: +该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超集也是非频繁项集,如下图所示: ![非频繁项集](../images/11.Apriori/非频繁项集.png) From f7a092d1d6c10aa19bfe07820e46647a111890bc Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Tue, 19 Sep 2017 19:18:36 +0800 Subject: [PATCH 5/5] =?UTF-8?q?=E6=9B=B4=E6=96=B0=20=E7=AC=AC8=E7=AB=A0=20?= =?UTF-8?q?=E5=9B=9E=E5=BD=92?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/8.预测数值型数据:回归.md | 3 ++- src/python/8.PredictiveNumericalDataRegression/regression.py | 4 ++-- 2 files changed, 4 insertions(+), 3 deletions(-) diff --git a/docs/8.预测数值型数据:回归.md b/docs/8.预测数值型数据:回归.md index 5c29ab47..1e3fe942 100644 --- a/docs/8.预测数值型数据:回归.md +++ b/docs/8.预测数值型数据:回归.md @@ -11,7 +11,7 @@ 回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。 -假如你想要预测姐姐男友汽车的功率大小,可能会这样计算: +假如你想要预测兰博基尼跑车的功率大小,可能会这样计算: HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio @@ -88,6 +88,7 @@ HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio 数据格式为: ``` +x 1.000000 0.067732 3.176513 1.000000 0.427810 3.816464 1.000000 0.995731 4.550095 diff --git a/src/python/8.PredictiveNumericalDataRegression/regression.py b/src/python/8.PredictiveNumericalDataRegression/regression.py index 5372cdee..11ea93be 100644 --- a/src/python/8.PredictiveNumericalDataRegression/regression.py +++ b/src/python/8.PredictiveNumericalDataRegression/regression.py @@ -584,9 +584,9 @@ def regression5(): if __name__ == "__main__": - # regression1() + regression1() # regression2() # abaloneTest() # regression3() - regression4() + # regression4() # regression5() \ No newline at end of file