Merge pull request #160 from jiangzhonglian/master

更新 8,11和15章的内容
This commit is contained in:
片刻
2017-09-19 19:22:44 +08:00
committed by GitHub
6 changed files with 8 additions and 26 deletions

View File

@@ -1,19 +0,0 @@
#!/bin/bash
# # 测试 Mapper
# # Linux
# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py
# # # Window
# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt
# # 测试 Reducer
# # Linux
# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py
# # # Window
# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py
# 测试 mrjob的案例
# 先测试一下mapper方法
# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt
# 运行整个程序,移除 --mapper 就行
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt

View File

@@ -28,13 +28,13 @@
## Apriori 原理
假设我们一共有 4 个商品: 商品0, 商品1, 商品2, 商品3。
所有可能的组合如下:
所有可能的情况如下:
![4种商品的所有组合](../images/11.Apriori/apachecn_apriori_goods_all_1.jpg)
如果我们计算所有组合的支持度,也需要计算 15 次。即 2^N - 1 = 2^4 - 1 = 15。
随着物品的增加,计算的次数呈指数的形式增长 ...
为了降低计算次数和时间,研究人员发现了一种所谓的 Apriori 原理,即某个项集是频繁的,那么它的所有子集也是频繁的。
例如,如果 {0, 1} 是频繁的,那么 {0}, {1} 也是频繁的。
该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超也是非频繁项集,如下图所示:
该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超也是非频繁项集,如下图所示:
![非频繁项集](../images/11.Apriori/非频繁项集.png)

View File

@@ -1,4 +1,4 @@
# 大数据与MapReduce
# 第15章 大数据与MapReduce
![大数据与MapReduce首页](/images/15.BigData_MapReduce/mr_headPage.jpg "大数据与MapReduce首页")

View File

@@ -9,7 +9,7 @@
* 支持向量(Support Vector)就是离分隔超平面最近的那些点。
* 机(Machine)就是表示一种算法,而不是表示机器。
## 支持向量机
## 支持向量机
* 如果把所有的点看作地雷,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。
* 所以选择D会比B、C分隔的效果要好很多。

View File

@@ -11,7 +11,7 @@
回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。
假如你想要预测姐姐男友汽车的功率大小,可能会这样计算:
假如你想要预测兰博基尼跑车的功率大小,可能会这样计算:
HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio
@@ -88,6 +88,7 @@ HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio
数据格式为:
```
x
1.000000 0.067732 3.176513
1.000000 0.427810 3.816464
1.000000 0.995731 4.550095

View File

@@ -584,9 +584,9 @@ def regression5():
if __name__ == "__main__":
# regression1()
regression1()
# regression2()
# abaloneTest()
# regression3()
regression4()
# regression4()
# regression5()