mirror of
https://github.com/apachecn/ailearning.git
synced 2026-05-10 00:02:09 +08:00
@@ -1,19 +0,0 @@
|
||||
#!/bin/bash
|
||||
|
||||
# # 测试 Mapper
|
||||
# # Linux
|
||||
# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py
|
||||
# # # Window
|
||||
# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt
|
||||
|
||||
# # 测试 Reducer
|
||||
# # Linux
|
||||
# cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py
|
||||
# # # Window
|
||||
# # python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py
|
||||
|
||||
# 测试 mrjob的案例
|
||||
# 先测试一下mapper方法
|
||||
# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt
|
||||
# 运行整个程序,移除 --mapper 就行
|
||||
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt
|
||||
@@ -28,13 +28,13 @@
|
||||
## Apriori 原理
|
||||
|
||||
假设我们一共有 4 个商品: 商品0, 商品1, 商品2, 商品3。
|
||||
所有可能的组合如下:
|
||||
所有可能的情况如下:
|
||||

|
||||
如果我们计算所有组合的支持度,也需要计算 15 次。即 2^N - 1 = 2^4 - 1 = 15。
|
||||
随着物品的增加,计算的次数呈指数的形式增长 ...
|
||||
为了降低计算次数和时间,研究人员发现了一种所谓的 Apriori 原理,即某个项集是频繁的,那么它的所有子集也是频繁的。
|
||||
例如,如果 {0, 1} 是频繁的,那么 {0}, {1} 也是频繁的。
|
||||
该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超级也是非频繁项集,如下图所示:
|
||||
该原理直观上没有什么帮助,但是如果反过来看就有用了,也就是说如果一个项集是 `非频繁项集`,那么它的所有超集也是非频繁项集,如下图所示:
|
||||
|
||||

|
||||
|
||||
|
||||
@@ -1,4 +1,4 @@
|
||||
# 大数据与MapReduce
|
||||
# 第15章 大数据与MapReduce
|
||||
|
||||

|
||||
|
||||
|
||||
@@ -9,7 +9,7 @@
|
||||
* 支持向量(Support Vector)就是离分隔超平面最近的那些点。
|
||||
* 机(Machine)就是表示一种算法,而不是表示机器。
|
||||
|
||||
## 支持向量机 背景
|
||||
## 支持向量机 场景
|
||||
|
||||
* 如果把所有的点看作地雷,那么我们(超平面)得找到最近所有的地雷,并保证我们离它最远。
|
||||
* 所以:选择D会比B、C分隔的效果要好很多。
|
||||
|
||||
@@ -11,7 +11,7 @@
|
||||
|
||||
回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。
|
||||
|
||||
假如你想要预测姐姐男友汽车的功率大小,可能会这样计算:
|
||||
假如你想要预测兰博基尼跑车的功率大小,可能会这样计算:
|
||||
|
||||
HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio
|
||||
|
||||
@@ -88,6 +88,7 @@ HorsePower = 0.0015 * annualSalary - 0.99 * hoursListeningToPublicRadio
|
||||
数据格式为:
|
||||
|
||||
```
|
||||
x
|
||||
1.000000 0.067732 3.176513
|
||||
1.000000 0.427810 3.816464
|
||||
1.000000 0.995731 4.550095
|
||||
|
||||
@@ -584,9 +584,9 @@ def regression5():
|
||||
|
||||
|
||||
if __name__ == "__main__":
|
||||
# regression1()
|
||||
regression1()
|
||||
# regression2()
|
||||
# abaloneTest()
|
||||
# regression3()
|
||||
regression4()
|
||||
# regression4()
|
||||
# regression5()
|
||||
Reference in New Issue
Block a user