diff --git a/.gitignore b/.gitignore index 5a190dbc..15d77707 100644 --- a/.gitignore +++ b/.gitignore @@ -3,6 +3,7 @@ __pycache__/ *.py[cod] *$py.class .vscode +zh-NER # C extensions *.so diff --git a/docs/ml/12.使用FP-growth算法来高效发现频繁项集.md b/docs/ml/12.使用FP-growth算法来高效发现频繁项集.md index 9c181ce1..ce5c00d4 100644 --- a/docs/ml/12.使用FP-growth算法来高效发现频繁项集.md +++ b/docs/ml/12.使用FP-growth算法来高效发现频繁项集.md @@ -57,7 +57,7 @@ class treeNode: ![](http://data.apachecn.org/img/AiLearning/ml/12.FP-growth/步骤6-2.png) 如上图,从头部链表 t 节点开始遍历,t 节点加入到频繁项集。找到以 t 节点为结尾的路径如下: ![](http://data.apachecn.org/img/AiLearning/ml/12.FP-growth/步骤7-1.png) - 去掉FP树中的t节点,得到条件模式基<左边路径,左边是值>[z,x,y,s,t]:2,[z,x,y,r,t]:1 。条件模式基的值取决于末尾节点 t ,因为 t 的出现次数最小,一个频繁项集的支持度由支持度最小的项决定。所以 t 节点的条件模式基的值可以理解为对于以 t 节点为末尾的前缀路径出现次数。 + 去掉FP树中的t节点,得到条件模式基<左边路径, 右边是值>[z,x,y,s,t]:2,[z,x,y,r,t]:1 。条件模式基的值取决于末尾节点 t ,因为 t 的出现次数最小,一个频繁项集的支持度由支持度最小的项决定。所以 t 节点的条件模式基的值可以理解为对于以 t 节点为末尾的前缀路径出现次数。 3. 条件模式基继续构造条件 FP树, 得到频繁项集,和之前的频繁项组合起来,这是一个递归遍历头部链表生成FP树的过程,递归截止条件是生成的FP树的头部链表为空。 根据步骤 2 得到的条件模式基 [z,x,y,s,t]:2,[z,x,y,r,t]:1 作为数据集继续构造出一棵FP树,计算支持度,去除非频繁项,集合按照支持度降序排序,重复上面构造FP树的步骤。最后得到下面 t-条件FP树 : diff --git a/docs/why-to-record-study-ml-video.md b/docs/why-to-record-study-ml-video.md index f0306516..b596498b 100644 --- a/docs/why-to-record-study-ml-video.md +++ b/docs/why-to-record-study-ml-video.md @@ -133,6 +133,6 @@ ## 加入方式 -* 机器学习企鹅群: 629470233(MachineLearning) +* 机器学习企鹅群: 915394271(MachineLearning) ps: 又特喵的收获了一些图片 。。。 diff --git a/faq/1.机器学习实战-复习版.md b/faq/1.机器学习实战-复习版.md index ae9733b6..e5b5d403 100644 --- a/faq/1.机器学习实战-复习版.md +++ b/faq/1.机器学习实战-复习版.md @@ -74,7 +74,7 @@ ## 6.机器学习QQ群 -* ApacheCN - 学习机器学习群【629470233】 +* ApacheCN - 学习机器学习群【915394271】 ***