更新Apriori .md注释

This commit is contained in:
jiangzhonglian
2017-03-30 19:06:29 +08:00
parent 6e5eb5d218
commit 2317391feb

View File

@@ -1,16 +1,14 @@
# 11) 使用Apriori算法进行关联分析
* 使用场景:
* 用户去超市、电商平台去买东西;那么是否可以促进用户消费呢?
* 目的:商店希望从客户身上获取尽可能多的利润。
* 忠诚度计划: 通过顾客的会员卡可获取已定的折扣,商店也可以了解客户购买的商品; 不买会员卡,商店也可以查用顾客一起购买的物品,找出商品之间的关系。
* 例如: 尿布和啤酒的故事
* 关联关系(associati analysis) 或 关联规则学习(association rule learning)
* 从大规模数据集中寻找物品间的隐含关系称作关联关系。
* 从大规模数据集中寻找物品间的隐含关系称作关联关系。
* 关联分析:
* 优点:易编码实现
* 缺点:在大数据集上可能较慢
* 适用数据类型:数值型 或者 标称型数据。
* 概念:是一种在大规模数据集中寻找有趣关系的任务。
* 关联分析有2种形式
* 1.频繁项集(frequent item sets): 经常出现在一块的物品集合
* 2.关联规则(association rules): 暗示两种物品之间可能存在很强的关系
@@ -23,6 +21,17 @@
* 置信度confidence)
* 置信度({A}->{B}) = 支持度{A,B}/支持度{A}
* 例如上图中:{尿布,葡萄酒}的支持度=3/5 {尿布}的支持度=4/5 所以 尿布->葡萄酒的可信度=3/4
* Apriori算法
* 优点:易编码实现
* 缺点:在大数据集上可能较慢
* 适用数据类型:数值型 或者 标称型数据。
* Apriori流程步骤
* 收集数据:使用任意方法。
* 准备数据:任何数据类型都可以,因为我们只保存集合。
* 分析数据:使用任意方法。
* 训练数据使用Apiori算法来找到频繁项集。
* 测试算法:不需要测试过程。
* 使用算法:用语发现频繁项集以及物品之间的关联规则。
* Apriori原理
* 如果某个项集是频繁的,那么它的所有子集也是频繁的,反之,一个项集是非频繁的,那么它的所有超集也是非频繁的。
* 例如: 我们假设知道{2, 3}是非频繁项,那么{0, 2, 3}, {1, 2, 3}, {0, 1, 2, 3}都是非频繁项。