更新 README.md 还原首页快速入门

This commit is contained in:
片刻小哥哥
2023-02-18 01:42:46 +08:00
parent b404758ba5
commit 40d21b1f83
27 changed files with 503 additions and 466 deletions

414
README.md
View File

@@ -4,7 +4,7 @@
</a> </a>
<br > <br >
<a href="https://www.apachecn.org/"><img src="https://img.shields.io/badge/%3E-HOME-green.svg"></a> <a href="https://www.apachecn.org/"><img src="https://img.shields.io/badge/%3E-HOME-green.svg"></a>
<a href="http://home.apachecn.org/about/"><img src="https://img.shields.io/badge/%3E-ABOUT-green.svg"></a> <a href="https://home.apachecn.org/about/"><img src="https://img.shields.io/badge/%3E-ABOUT-green.svg"></a>
<a href="mailto:apache@163.com"><img src="https://img.shields.io/badge/%3E-Email-green.svg"></a> <a href="mailto:apache@163.com"><img src="https://img.shields.io/badge/%3E-Email-green.svg"></a>
</p> </p>
@@ -17,68 +17,398 @@
* [在线阅读](https://ailearning.apachecn.org) * [在线阅读](https://ailearning.apachecn.org)
* [在线阅读Gitee](https://apachecn.gitee.io/ailearning) * [在线阅读Gitee](https://apachecn.gitee.io/ailearning)
* [ApacheCN 中文翻译组 713436582](https://qm.qq.com/cgi-bin/qm/qr?k=5u_aAU-YlY3fH-m8meXTJzBEo2boQIUs&jump_from=webapi&authKey=CVZcReMt/vKdTXZBQ8ly+jWncXiSzzWOlrx5hybX5pSrKu6s0fvGX54+vHHlgYNt) * [ApacheCN 中文翻译组 713436582](https://qm.qq.com/cgi-bin/qm/qr?k=5u_aAU-YlY3fH-m8meXTJzBEo2boQIUs&jump_from=webapi&authKey=CVZcReMt/vKdTXZBQ8ly+jWncXiSzzWOlrx5hybX5pSrKu6s0fvGX54+vHHlgYNt)
* [ApacheCN 学习资源](http://www.apachecn.org/) * [ApacheCN 学习资源](https://www.apachecn.org/)
## 公告 # 路线图
⚠⚠⚠此项目已正式封板⚠⚠⚠ * 入门只看: 步骤 1 => 2 => 3你可以当大牛
* 中级补充 - 资料库: <https://github.com/apachecn/ai-roadmap>
ApacheCN 的 AI 相关项目告一段落,请大家关注我们的其他计划,例如: > 补充
+ [QuantLearning](https://github.com/apachecn/quant-learning) * 算法刷题: <https://www.ixigua.com/pseries/6822642486343631363/>
+ [Quant 译文集](https://github.com/apachecn/apachecn-quant-zh) * 面试求职: <https://www.ixigua.com/pseries/6822563009391493636/>
+ [Quant WIKI](https://github.com/apachecn/quant-wiki) * 机器学习实战: <https://www.ixigua.com/pseries/6822816341615968772/>
* NLP教学视频: <https://www.ixigua.com/pseries/6828241431295951373/>
* **AI常用函数说明**: <https://github.com/apachecn/AiLearning/tree/master/AI常用函数说明.md>
## 贡献指南 ## 1.机器学习 - 基础
为了不断改进翻译质量我们特此启动了【翻译、校对、笔记整理活动】开设了多个校对项目。贡献者校对一章之后可以领取千字2\~4元的奖励。进行中的校对活动请见[活动列表](https://home.apachecn.org/#/docs/activity/docs-activity)。更多详情请联系飞龙Q562826179V:wizardforcel > 支持版本
## DOCX开放共享科研记录行动倡议 | Version | Supported |
| ------- | ------------------ |
| 3.6.x | :x: |
| 2.7.x | :white_check_mark: |
我们积极响应[科研开源计划DOCX](https://mmcheng.net/docx/)。如今开源不仅仅是开放源码,还包括数据集、模型、教程和实验记录。我们也在探讨其它类别的开源方案和协议。 注意事项:
希望大家了解这个倡议,把这个倡议与自己的兴趣点结合,做点力所能及的事情。每个人的微小的贡献,汇聚在一起就是整个开源生态。 - 机器学习实战: 仅仅只是学习,请使用 python 2.7.x 版本 3.6.x 只是修改了部分)
## 下载 ### 基本介绍
### Docker * 资料来源: Machine Learning in Action(机器学习实战-个人笔记)
* 统一数据地址: <https://github.com/apachecn/data>
* 百度云打包地址: <https://github.com/apachecn/data/issues/3>
* 书籍下载地址: <https://github.com/apachecn/data/tree/master/book>
* 机器学习下载地址: <https://github.com/apachecn/data/tree/master/机器学习>
* 深度学习数据地址: <https://github.com/apachecn/data/tree/master/深度学习>
* 推荐系统数据地址: <https://github.com/apachecn/data/tree/master/推荐系统>
* 视频网站: 优酷 bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)
* -- 推荐 [红色石头](https://github.com/RedstoneWill): [台湾大学林轩田机器学习笔记](https://github.com/apachecn/ntu-hsuantienlin-ml)
* -- 推荐 [机器学习笔记](https://feisky.xyz/machine-learning): https://feisky.xyz/machine-learning
``` ### 学习文档
docker pull apachecn0/ailearning
docker run -tid -p <port>:80 apachecn0/ailearning | 模块 | 章节 | 类型 | 负责人(GitHub) | QQ |
# 访问 http://localhost:{port} 查看文档 | --- | --- | --- | --- | --- |
| 机器学习实战 | [第 1 章: 机器学习基础](/docs/ml/1.md) | 介绍 | [@毛红动](https://github.com/ElmaDavies) | 1306014226 |
| 机器学习实战 | [第 2 章: KNN 近邻算法](/docs/ml/2.md) | 分类 | [@尤永江](https://github.com/youyj521) | 279393323 |
| 机器学习实战 | [第 3 章: 决策树](/docs/ml/3.md) | 分类 | [@景涛](https://github.com/jingwangfei) | 844300439 |
| 机器学习实战 | [第 4 章: 朴素贝叶斯](/docs/ml/4.md) | 分类 | [@wnma3mz](https://github.com/wnma3mz)<br/>[@分析](https://github.com/kailian) | 1003324213<br/>244970749 |
| 机器学习实战 | [第 5 章: Logistic回归](/docs/ml/5.md) | 分类 | [@微光同尘](https://github.com/DataMonk2017) | 529925688 |
| 机器学习实战 | [第 6 章: SVM 支持向量机](/docs/ml/6.md) | 分类 | [@王德红](https://github.com/VPrincekin) | 934969547 |
| 网上组合内容 | [第 7 章: 集成方法(随机森林和 AdaBoost](/docs/ml/7.md) | 分类 | [@片刻](https://github.com/jiangzhonglian) | 529815144 |
| 机器学习实战 | [第 8 章: 回归](/docs/ml/8.md) | 回归 | [@微光同尘](https://github.com/DataMonk2017) | 529925688 |
| 机器学习实战 | [第 9 章: 树回归](/docs/ml/9.md) | 回归 | [@微光同尘](https://github.com/DataMonk2017) | 529925688 |
| 机器学习实战 | [第 10 章: K-Means 聚类](/docs/ml/10.md) | 聚类 | [@徐昭清](https://github.com/xuzhaoqing) | 827106588 |
| 机器学习实战 | [第 11 章: 利用 Apriori 算法进行关联分析](/docs/ml/11.md) | 频繁项集 | [@刘海飞](https://github.com/WindZQ) | 1049498972 |
| 机器学习实战 | [第 12 章: FP-growth 高效发现频繁项集](/docs/ml/12.md) | 频繁项集 | [@程威](https://github.com/mikechengwei) | 842725815 |
| 机器学习实战 | [第 13 章: 利用 PCA 来简化数据](/docs/ml/13.md) | 工具 | [@廖立娟](https://github.com/lljuan330) | 835670618 |
| 机器学习实战 | [第 14 章: 利用 SVD 来简化数据](/docs/ml/14.md) | 工具 | [@张俊皓](https://github.com/marsjhao) | 714974242 |
| 机器学习实战 | [第 15 章: 大数据与 MapReduce](/docs/ml/15.md) | 工具 | [@wnma3mz](https://github.com/wnma3mz) | 1003324213 |
| Ml项目实战 | [第 16 章: 推荐系统(已迁移)](/docs/ml/16.md) | 项目 | [推荐系统(迁移后地址)](https://github.com/apachecn/RecommenderSystems) | |
| 第一期的总结 | [2017-04-08: 第一期的总结](/docs/report/2017-04-08.md) | 总结 | 总结 | 529815144 |
### 网站视频
> [知乎问答-爆炸啦-机器学习该怎么入门?](https://www.zhihu.com/question/20691338/answer/248678328)
当然我知道第一句就会被吐槽因为科班出身的人不屑的吐了一口唾沫说傻X还评论 Andrew Ng 的视频。。
我还知道还有一部分人,看 Andrew Ng 的视频就是看不懂,那神秘的数学推导,那迷之微笑的英文版的教学,我何尝又不是这样走过来的?? 我的心可能比你们都痛因为我在网上收藏过上10部《机器学习》相关视频外加国内本土风格的教程: 7月+小象 等等,我都很难去听懂,直到有一天,被一个百度的高级算法分析师推荐说: 《机器学习实战》还不错,通俗易懂,你去试试??
我试了试还好我的Python基础和调试能力还不错基本上代码都调试过一遍很多高大上的 "理论+推导",在我眼中变成了几个 "加减乘除+循环",我想这不就是像我这样的程序员想要的入门教程么?
很多程序员说机器学习 TM 太难学了,是的,真 TM 难学,我想最难的是: 没有一本像《机器学习实战》那样的作者愿意以程序员 Coding 角度去给大家讲解!!
最近几天GitHub 涨了 300颗 star加群的200人 现在还在不断的增加++,我想大家可能都是感同身受吧!
很多想入门新手就是被忽悠着收藏收藏再收藏,但是最后还是什么都没有学到,也就是"资源收藏家",也许新手要的就是 [MachineLearning(机器学习) 学习路线图](https:/docs.apachecn.org/map)。没错,我可以给你们的一份,因为我们还通过视频记录下来我们的学习过程。水平当然也有限,不过对于新手入门,绝对没问题,如果你还不会,那算我输!!
> 视频怎么看?
![](img/ApacheCN-ML-bilibili-compare.jpg)
1. 理论科班出身-建议去学习 Andrew Ng 的视频Ng 的视频绝对是权威,这个毋庸置疑)
2. 编码能力强 - 建议看我们的[《机器学习实战-教学版》](https://space.bilibili.com/97678687/#!/channel/detail?cid=22486)
3. 编码能力弱 - 建议看我们的[《机器学习实战-讨论版》](https://space.bilibili.com/97678687/#!/channel/detail?cid=13045),不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。
> 【免费】数学教学视频 - 可汗学院 入门篇
* [@于振梓]() 推荐: 可汗学院-网易公开课
| 概率 | 统计 | 线性代数 |
| - | - | - |
| [可汗学院(概率)](http://open.163.com/special/Khan/probability.html) | [可汗学院(统计学)](http://open.163.com/special/Khan/khstatistics.html)| [可汗学院(线性代数)](http://open.163.com/special/Khan/linearalgebra.html)
> 机器学习视频 - ApacheCN 教学版
|||
| - | - |
| AcFun | B站 |
| <a title="AcFun机器学习视频" href="http://www.acfun.cn/u/12540256.aspx#page=1" target="_blank"><img width="290" src="/docs/img/ApacheCN-ML-AcFun.jpg"></a> | <a title="bilibili机器学习视频" href="https://space.bilibili.com/97678687/channel/collectiondetail?sid=707585" target="_blank"><img width="290" src="/docs/img/ApacheCN-ML-bilibili.jpg"></a> |
| 优酷 | 网易云课堂 |
| <a title="YouKu机器学习视频" href="http://i.youku.com/apachecn" target="_blank"><img width="290" src="/docs/img/ApacheCM-ML-youku.jpg"></a> | <a title="WangYiYunKeTang机器学习视频" href="http://study.163.com/course/courseMain.htm?courseId=1004582003" target="_blank"><img width="290" src="/docs/img/ApacheCM-ML-WangYiYunKeTang.png"></a> |
> 【免费】机器/深度学习视频 - 吴恩达
| 机器学习 | 深度学习 |
| - | - |
| [吴恩达机器学习](http://study.163.com/course/courseMain.htm?courseId=1004570029) | [神经网络和深度学习](http://mooc.study.163.com/course/2001281002?tid=2001392029) |
## 2.深度学习
> 支持版本
| Version | Supported |
| ------- | ------------------ |
| 3.6.x | :white_check_mark: |
| 2.7.x | :x: |
### 入门基础
1. [反向传递](/docs/dl/反向传递.md): https://www.cnblogs.com/charlotte77/p/5629865.html
2. [CNN原理](/docs/dl/CNN原理.md): http://www.cnblogs.com/charlotte77/p/7759802.html
3. [RNN原理](/docs/dl/RNN原理.md): https://blog.csdn.net/qq_39422642/article/details/78676567
4. [LSTM原理](/docs/dl/LSTM原理.md): https://blog.csdn.net/weixin_42111770/article/details/80900575
### Pytorch - 教程
-- 待更新
### TensorFlow 2.0 - 教程
-- 待更新
> 目录结构:
* [安装指南](/docs/TensorFlow2.x/安装指南.md)
* [Keras 快速入门](/docs/TensorFlow2.x/Keras快速入门.md)
* [实战项目 1 电影情感分类](/docs/TensorFlow2.x/实战项目_1_电影情感分类.md)
* [实战项目 2 汽车燃油效率](/docs/TensorFlow2.x/实战项目_2_汽车燃油效率.md)
* [实战项目 3 优化 过拟合和欠拟合](/docs/TensorFlow2.x/实战项目_3_优化_过拟合和欠拟合.md)
* [实战项目 4 古诗词自动生成](/docs/TensorFlow2.x/实战项目_4_古诗词自动生成.md)
切分(分词)
词性标注
命名实体识别
句法分析
WordNet可以被看作是一个同义词词典
词干提取stemming与词形还原lemmatization
* https://www.biaodianfu.com/nltk.html/amp
TensorFlow 2.0学习网址
* https://github.com/lyhue1991/eat_tensorflow2_in_30_days
## 3.自然语言处理
> 支持版本
| Version | Supported |
| ------- | ------------------ |
| 3.6.x | :white_check_mark: |
| 2.7.x | :x: |
学习过程中-内心复杂的变化!!!
```python
自从学习NLP以后才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
1) 国内: 就好像为了名气举办工作装逼的会议就是没有干货全部都是象征性的PPT介绍不是针对在做的各位
2国外: 就好像是为了推动nlp进步一样分享者各种干货资料和具体的实现。(特别是: python自然语言处理
2. 论文的实现:
1) 各种高大上的论文实现却还是没看到一个像样的GitHub项目可能我的搜索能力差了点一直没找到
2国外就不举例了我看不懂
3. 开源的框架
1国外的开源框架: tensorflow/pytorch 文档+教程+视频官方提供
2) 国内的开源框架: 额额还真举例不出来但是牛逼吹得不比国外差MXNet虽然有众多国人参与开发但不能算是国内开源框架基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制公开发布(文档+第一季教程+视频)。)
每一次深入都要去翻墙每一次深入都要Google每一次看着国内的说: 哈工大讯飞中科大百度阿里多牛逼但是资料还是得国外去找
有时候真的挺恨的真的有点瞧不起自己国内的技术环境
当然谢谢国内很多博客大佬特别是一些入门的Demo和基本概念。【深入的水平有限没看懂
``` ```
### PYPI ![](nlp/img/F94581F64C21A1094A473397DFA42F9C.jpg)
``` * **【入门须知】必须了解**: <https://github.com/apachecn/AiLearning/tree/master/nlp>
pip install apachecn-ailearning * **【入门教程】强烈推荐: PyTorch 自然语言处理**: <https://github.com/apachecn/NLP-with-PyTorch>
apachecn-ailearning <port> * Python 自然语言处理 第二版: <https://usyiyi.github.io/nlp-py-2e-zh>
# 访问 http://localhost:{port} 查看文档 * 推荐一个[liuhuanyong大佬](https://github.com/liuhuanyong)整理的nlp全面知识体系: <https://liuhuanyong.github.io>
``` * 开源 - 词向量库集合:
* <https://www.cnblogs.com/Darwin2000/p/5786984.html>
* <https://ai.tencent.com/ailab/nlp/embedding.html>
* <https://blog.csdn.net/xiezj007/article/details/85073890>
* <https://github.com/Embedding/Chinese-Word-Vectors>
* <https://github.com/brightmart/nlp_chinese_corpus>
* <https://github.com/codemayq/chinese_chatbot_corpus>
* <https://github.com/candlewill/Dialog_Corpus>
### NPM
``` ### 1.使用场景 (百度公开课)
npm install -g ailearning
ailearning <port>
# 访问 http://localhost:{port} 查看文档
```
## 组织介绍 > 第一部分 入门介绍
> 我们是布客iBooker一个大型开源社区、自媒体和网赚社区旗下 QQ 群共一万余人订阅用户至少一万人。Github Star 数量超过 60k 个,在所有 Github 组织中[排名前 100][top100]。旗下所有网站日 uip 超过 4k[Alexa 排名的峰值为 20k][top20k]。我们的核心成员拥有[ CSDN 博客专家][csdn-pro]和[简书程序员优秀作者][js-pro]认证。我们建立了公益性文档和教程翻译项目 [ApacheCN][apachecn]。 * 1.) [自然语言处理入门介绍](/docs/nlp/1.自然语言处理入门介绍.md)
>
> 与商业组织不同,我们并不会追逐热点,或者唯利是图。作为公益组织,我们将完成项目放在首要位置,并有足够时间把项目打磨到极致。我们希望做出广大 AI 爱好者和个人开发者真正需要的东西,打造真正有价值的长尾作品。
* **We are ApacheCN Open Source Organization, not ASF! We are fans of AI, and have no relationship with ASF!** > 第二部分 机器翻译
* 合作 or 侵权,请联系 <apachecn@163.com> | 请抄送一份到 <wizard.z@foxmail.com>
* 2.) [机器翻译](/nlp/2.机器翻译.md)
> 第三部分 篇章分析
* 3.1.) [篇章分析-内容概述](/docs/nlp/3.1.篇章分析-内容概述.md)
* 3.2.) [篇章分析-内容标签](/docs/nlp/3.2.篇章分析-内容标签.md)
* 3.3.) [篇章分析-情感分析](/docs/nlp/3.3.篇章分析-情感分析.md)
* 3.4.) [篇章分析-自动摘要](/docs/nlp/3.4.篇章分析-自动摘要.md)
> 第四部分 UNIT-语言理解与交互技术
* 4.) [UNIT-语言理解与交互技术](/docs/nlp/4.UNIT-语言理解与交互技术.md)
### 应用领域
#### 中文分词:
* 构建DAG图
* 动态规划查找综合正反向正向加权反向输出求得DAG最大概率路径
* 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题
#### 1.文本分类Text Classification
文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。
下面是一些很好的初学者文本分类数据集。
1. [路透社Newswire主题分类](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)(路透社-21578。1987年路透社出现的一系列新闻文件按类别编制索引。[另见RCV1RCV2和TRC2](http://trec.nist.gov/data/reuters/reuters.html)。
2. [IMDB电影评论情感分类斯坦福](http://ai.stanford.edu/~amaas/data/sentiment)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
3. [新闻组电影评论情感分类(康奈尔)](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
有关更多信息,请参阅帖子:
[单标签文本分类的数据集](http://ana.cachopo.org/datasets-for-single-label-text-categorization)。
> 情感分析
比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial
* 方案一(0.86): WordCount + 朴素 Bayes
* 方案二(0.94): LDA + 分类模型knn/决策树/逻辑回归/svm/xgboost/随机森林)
* a) 决策树效果不是很好,这种连续特征不太适合的
* b) 通过参数调整 200 个topic信息量保存效果较优计算主题
* 方案三(0.72): word2vec + CNN
* 说实话: 没有一个好的机器,是调不出来一个好的结果 (: 逃
**通过AUC 来评估模型的效果**
#### 2.语言模型Language Modeling
语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。
它是语音识别和机器翻译等任务中的前置任务。
下面是一些很好的初学者语言建模数据集。
1. [古腾堡项目](https://www.gutenberg.org/),一系列免费书籍,可以用纯文本检索各种语言。
2. 还有更多正式的语料库得到了很好的研究; 例如:
[布朗大学现代美国英语标准语料库](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英语单词样本。
[谷歌10亿字语料库](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。
> 新词发现
* 中文分词新词发现
* python3利用互信息和左右信息熵的中文分词新词发现
* <https://github.com/zhanzecheng/Chinese_segment_augment>
> 句子相似度识别
* 项目地址: https://www.kaggle.com/c/quora-question-pairs
* 解决方案: word2vec + Bi-GRU
> 文本纠错
* bi-gram + levenshtein
#### 3.图像字幕Image Captioning
mage字幕是为给定图像生成文本描述的任务。
下面是一些很好的初学者图像字幕数据集。
1. [上下文中的公共对象COCO](http://mscoco.org/dataset/#overview)。包含超过12万张带描述的图像的集合
2. [Flickr 8K](http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。从flickr.com获取的8千个描述图像的集合。
3. [Flickr 30K](http://shannon.cs.illinois.edu/DenotationGraph/)。从flickr.com获取的3万个描述图像的集合。
欲了解更多,请看帖子:
[探索图像字幕数据集2016年](http://sidgan.me/technical/2016/01/09/Exploring-Datasets)
#### 4.机器翻译Machine Translation
机器翻译是将文本从一种语言翻译成另一种语言的任务。
下面是一些很好的初学者机器翻译数据集。
1. [加拿大第36届议会的协调国会议员](https://www.isi.edu/natural-language/download/hansard/)。成对的英语和法语句子。
2. [欧洲议会诉讼平行语料库1996-2011](http://www.statmt.org/europarl/)。句子对一套欧洲语言。
有大量标准数据集用于年度机器翻译挑战; 看到:
[统计机器翻译](http://www.statmt.org/)
> 机器翻译
* Encoder + Decoder(Attention)
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
#### 5.问答系统Question Answering
问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。
下面是一些很好的初学者问题回答数据集。
1. [斯坦福问题回答数据集SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)。回答有关维基百科文章的问题。
2. [Deepmind问题回答语料库](https://github.com/deepmind/rc-data)。从每日邮报回答有关新闻文章的问题。
3. [亚马逊问答数据](http://jmcauley.ucsd.edu/data/amazon/qa/)。回答有关亚马逊产品的问题。
有关更多信息,请参阅帖子:
[数据集: 我如何获得问答网站的语料库如Quora或Yahoo Answers或Stack Overflow来分析答案质量](https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)
#### 6.语音识别Speech Recognition
语音识别是将口语的音频转换为人类可读文本的任务。
下面是一些很好的初学者语音识别数据集。
1. [TIMIT声学 - 语音连续语音语料库](https://catalog.ldc.upenn.edu/LDC93S1)。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。
2. [VoxForge](http://voxforge.org/)。用于构建用于语音识别的开源数据库的项目。
3. [LibriSpeech ASR语料库](http://www.openslr.org/12/)。从LibriVox收集的大量英语有声读物。
#### 7.自动文摘Document Summarization
文档摘要是创建较大文档的简短有意义描述的任务。
下面是一些很好的初学者文档摘要数据集。
1. [法律案例报告数据集](https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。收集了4000份法律案件及其摘要。
2. [TIPSTER文本摘要评估会议语料库](http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。收集了近200份文件及其摘要。
3. [英语新闻文本的AQUAINT语料库](https://catalog.ldc.upenn.edu/LDC2002T31)。不是免费的,而是广泛使用的。新闻文章的语料库。
欲了解更多信息:
[文档理解会议DUC任务](http://www-nlpir.nist.gov/projects/duc/data.html)。
[在哪里可以找到用于文本摘要的良好数据集?](https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)
> 命名实体识别
* Bi-LSTM CRF
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
* CRF推荐文档: https://www.jianshu.com/p/55755fc649b1
> 文本摘要
* **抽取式**
* word2vec + textrank
* word2vec推荐文档: https://www.zhihu.com/question/44832436/answer/266068967
* textrank推荐文档: https://blog.csdn.net/BaiHuaXiu123/article/details/77847232
## Graph图计算【慢慢更新】
* 数据集: [https://github.com/apachecn/data/tree/master/graph](https://github.com/apachecn/data/tree/master/graph)
* 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】
## 知识图谱
* 知识图谱,我只认 [SimmerChan](https://www.zhihu.com/people/simmerchan): [【知识图谱-给AI装个大脑】](https://zhuanlan.zhihu.com/knowledgegraph)
* 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出。我很喜欢,所以就分享给大家,希望你们也喜欢。
### 进一步阅读
如果您希望更深入,本节提供了其他数据集列表。
1. [维基百科研究中使用的文本数据集](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)
2. [数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?](https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)
3. [斯坦福统计自然语言处理语料库](https://nlp.stanford.edu/links/statnlp.html#Corpora)
4. [按字母顺序排列的NLP数据集列表](https://github.com/niderhoff/nlp-datasets)
5. [该机构NLTK](http://www.nltk.org/nltk_data/)
6. [在DL4J上打开深度学习数据](https://deeplearning4j.org/opendata)
7. [NLP数据集](https://github.com/caesar0301/awesome-public-datasets#natural-language)
8. 国内开放数据集: https://bosonnlp.com/dev/resource
[top100]: https://gitstar-ranking.com/apachecn
[top20k]: http://home.apachecn.org/img/about/alexa_201906.png
[csdn-pro]: https://blog.csdn.net/wizardforcel
[js-pro]: https://www.jianshu.com/u/b508a6aa98eb
[apachecn]: https://github.com/apachecn
## 参考 ## 参考

View File

@@ -1,5 +1,4 @@
+ [简介](README.md) + [快速入门](docs/README.md)
+ [路线图](docs/roadmap.md)
+ [数据分析](docs/da/README.md) + [数据分析](docs/da/README.md)
+ [01\. Python 工具](docs/da/001.md) + [01\. Python 工具](docs/da/001.md)
+ [Python 简介](docs/da/002.md) + [Python 简介](docs/da/002.md)

View File

@@ -5,7 +5,7 @@
var footer = ` var footer = `
<hr/> <hr/>
<div align="center"> <div align="center">
<p><a href="http://www.apachecn.org/" target="_blank"><font face="KaiTi" size="6" color="red">我们一直在努力</font></a><p> <p><a href="https://www.apachecn.org/" target="_blank"><font face="KaiTi" size="6" color="red">我们一直在努力</font></a><p>
<p><a href="https://github.com/${unRepo}" target="_blank">${unRepo}</a></p> <p><a href="https://github.com/${unRepo}" target="_blank">${unRepo}</a></p>
<p><a target="_blank" href="https://qm.qq.com/cgi-bin/qm/qr?k=5u_aAU-YlY3fH-m8meXTJzBEo2boQIUs&jump_from=webapi&authKey=CVZcReMt/vKdTXZBQ8ly+jWncXiSzzWOlrx5hybX5pSrKu6s0fvGX54+vHHlgYNt"><img border="0" src="//pub.idqqimg.com/wpa/images/group.png" alt="【布客】中文翻译组" title="【布客】中文翻译组"></a></p> <p><a target="_blank" href="https://qm.qq.com/cgi-bin/qm/qr?k=5u_aAU-YlY3fH-m8meXTJzBEo2boQIUs&jump_from=webapi&authKey=CVZcReMt/vKdTXZBQ8ly+jWncXiSzzWOlrx5hybX5pSrKu6s0fvGX54+vHHlgYNt"><img border="0" src="//pub.idqqimg.com/wpa/images/group.png" alt="【布客】中文翻译组" title="【布客】中文翻译组"></a></p>
<p><span id="cnzz_stat_icon_${cnzzId}"></span></p> <p><span id="cnzz_stat_icon_${cnzzId}"></span></p>

View File

@@ -63,7 +63,7 @@
* 学习文档: https://github.com/apachecn/AiLearning * 学习文档: https://github.com/apachecn/AiLearning
* 下载书籍: https://github.com/apachecn/AiLearning/tree/python-2.7/books * 下载书籍: https://github.com/apachecn/AiLearning/tree/python-2.7/books
* 活动日期: 2017-11-20 2017-12-08共15天1章1天 * 活动日期: 2017-11-20 2017-12-08共15天1章1天
* 活动详情: http://www.apachecn.org/machinelearning/279.html * 活动详情: https://www.apachecn.org/machinelearning/279.html
## 5.直播方式 ## 5.直播方式

View File

@@ -9,7 +9,7 @@
* [在线阅读](https://linalg.apachecn.org) * [在线阅读](https://linalg.apachecn.org)
* [在线阅读Gitee](https://apachecn.gitee.io/mit-18.06-linalg-notes/) * [在线阅读Gitee](https://apachecn.gitee.io/mit-18.06-linalg-notes/)
* [ApacheCN 机器学习交流群 629470233](http://shang.qq.com/wpa/qunwpa?idkey=30e5f1123a79867570f665aa3a483ca404b1c3f77737bc01ec520ed5f078ddef) * [ApacheCN 机器学习交流群 629470233](http://shang.qq.com/wpa/qunwpa?idkey=30e5f1123a79867570f665aa3a483ca404b1c3f77737bc01ec520ed5f078ddef)
* [ApacheCN 学习资源](http://www.apachecn.org/) * [ApacheCN 学习资源](https://www.apachecn.org/)
## 联系方式 ## 联系方式
@@ -21,7 +21,7 @@
* 在我们的 [apachecn/mit-18.06-linalg-notes](https://github.com/apachecn/mit-18.06-linalg-notes) github 上提 issue. * 在我们的 [apachecn/mit-18.06-linalg-notes](https://github.com/apachecn/mit-18.06-linalg-notes) github 上提 issue.
* 发邮件到 Email: `apachecn@163.com`. * 发邮件到 Email: `apachecn@163.com`.
* 在我们的 [组织学习交流群](http://www.apachecn.org/organization/348.html) 中联系群主/管理员即可. * 在我们的 [组织学习交流群](https://www.apachecn.org/organization/348.html) 中联系群主/管理员即可.
## 下载 ## 下载

View File

@@ -652,7 +652,7 @@ AI有道: 红色石头
* **黄博(机器学习初学者)**: 机器学习课程在国内还不够普及,大部分初学者还是很迷茫,走了很多弯路,黄海广博士希望能尽自己的微薄之力,为机器学习初学者提供一个学习交流的平台。 * **黄博(机器学习初学者)**: 机器学习课程在国内还不够普及,大部分初学者还是很迷茫,走了很多弯路,黄海广博士希望能尽自己的微薄之力,为机器学习初学者提供一个学习交流的平台。
![图片](https://uploader.shimo.im/f/FUax8CI2ZTYyvYcF.png!thumbnail) ![图片](https://uploader.shimo.im/f/FUax8CI2ZTYyvYcF.png!thumbnail)
* **ApacheCN**: 一个致力于提供优质开源项目的开源组织致力于AI文档翻译Kaggle比赛交流、LeetCode算法刷题、大数据交流等项目。我们希望做出广大 AI 爱好者真正需要的东西,打造真正有价值的长尾作品。官方网址: [http://www.apachecn.org/](http://www.apachecn.org/),点击阅读原文即可查看。 * **ApacheCN**: 一个致力于提供优质开源项目的开源组织致力于AI文档翻译Kaggle比赛交流、LeetCode算法刷题、大数据交流等项目。我们希望做出广大 AI 爱好者真正需要的东西,打造真正有价值的长尾作品。官方网址: [https://www.apachecn.org/](https://www.apachecn.org/),点击阅读原文即可查看。
## ##

View File

@@ -1,14 +1,14 @@
![ApacheCN](http://www.apachecn.org/wp-content/uploads/2017/10/apachecn-logo.png) ![ApacheCN](https://www.apachecn.org/wp-content/uploads/2017/10/apachecn-logo.png)
## 前言 ## 前言
无意间2017 年马上又要结束了,时间过得真快啊,又要老一岁了 。。。 无意间2017 年马上又要结束了,时间过得真快啊,又要老一岁了 。。。
![](http://www.apachecn.org/wp-content/uploads/2017/11/apachecn_zhuangbirufeng.jpg) ![](https://www.apachecn.org/wp-content/uploads/2017/11/apachecn_zhuangbirufeng.jpg)
在 2016 年 4 月份的时候,有一个想法,就是一个人想翻译下官方文档,感觉这样做的话,学习东西的话也会快很多,对自己也是一个提升,同时还可以帮助到其他的朋友,何乐而不为呢??? 在 2016 年 4 月份的时候,有一个想法,就是一个人想翻译下官方文档,感觉这样做的话,学习东西的话也会快很多,对自己也是一个提升,同时还可以帮助到其他的朋友,何乐而不为呢???
有了这个想法之后,就跟一些朋友聊了一下,看一下可行性怎么样,大家都觉得有搞头,可以操作一波。(好可惜呀,跟好多人说了这个想法,真正想做并能坚持的朋友,貌似没有几个了,坚持着不该坚持的坚持,执着着不该执着的执着 。。。) 有了这个想法之后,就跟一些朋友聊了一下,看一下可行性怎么样,大家都觉得有搞头,可以操作一波。(好可惜呀,跟好多人说了这个想法,真正想做并能坚持的朋友,貌似没有几个了,坚持着不该坚持的坚持,执着着不该执着的执着 。。。)
在 2016 年 7 月份的时候,才真正的打算做这件事情,那时候年少轻狂,写了一篇文章 [伟大的航道,前往新世界](http://www.apachecn.org/newworld/11.html)**注: 了解 ApacheCN 必读** 文章,简单的说了下自己的经历和想法,一些想做的事情,想找更多的朋友一起来翻译下官方文档。 在 2016 年 7 月份的时候,才真正的打算做这件事情,那时候年少轻狂,写了一篇文章 [伟大的航道,前往新世界](https://www.apachecn.org/newworld/11.html)**注: 了解 ApacheCN 必读** 文章,简单的说了下自己的经历和想法,一些想做的事情,想找更多的朋友一起来翻译下官方文档。
由于当时做的是大数据方面的,所以更多的是翻译 SparkStormKuduZeepelinKibanaElasticsearch 。。。等等和大数据相关的官方文档了,中间有很多故事由于篇幅原因,就先不细说了。至今为止,以上技术相关的文档,基本上都算是翻译好了,算是能看了,虽然还需要更进一步的完善,至少聊胜于无啊!~ 由于当时做的是大数据方面的,所以更多的是翻译 SparkStormKuduZeepelinKibanaElasticsearch 。。。等等和大数据相关的官方文档了,中间有很多故事由于篇幅原因,就先不细说了。至今为止,以上技术相关的文档,基本上都算是翻译好了,算是能看了,虽然还需要更进一步的完善,至少聊胜于无啊!~
@@ -29,7 +29,7 @@
就这样,在 2017 年 6 月底,踏上了装逼不归路,再不疯狂一把,我们就真的老了。。。 就这样,在 2017 年 6 月底,踏上了装逼不归路,再不疯狂一把,我们就真的老了。。。
![好好读书,不要再装逼了](http://www.apachecn.org/wp-content/uploads/2017/09/apachecn-zhuangbi-1.jpg) ![好好读书,不要再装逼了](https://www.apachecn.org/wp-content/uploads/2017/09/apachecn-zhuangbi-1.jpg)
## 装逼的不归路 ## 装逼的不归路
自从走上了装逼的不归路之后,腰不酸了,腿不疼了,一口气装完逼脸不红,心也不跳了。。。 自从走上了装逼的不归路之后,腰不酸了,腿不疼了,一口气装完逼脸不红,心也不跳了。。。
@@ -56,7 +56,7 @@
## 组织目标 ## 组织目标
第一目标: 国内第一装逼组织,大家去哪里装逼的时候,都能遇到组织成员就刺激了。 第一目标: 国内第一装逼组织,大家去哪里装逼的时候,都能遇到组织成员就刺激了。
第二目标: 等你来定义 。。。 第二目标: 等你来定义 。。。
![让我看看是谁在装逼](http://www.apachecn.org/wp-content/uploads/2017/11/apachecn_shishuizaizhuangbi.jpg) ![让我看看是谁在装逼](https://www.apachecn.org/wp-content/uploads/2017/11/apachecn_shishuizaizhuangbi.jpg)
## 组织是做什么的 ## 组织是做什么的
请看 [apachecn.org](http://www.apachecn.org) 组织首页的介绍,专注于优秀项目维护的开源组织,不止于权威的文档视频技术支持。 请看 [apachecn.org](http://www.apachecn.org) 组织首页的介绍,专注于优秀项目维护的开源组织,不止于权威的文档视频技术支持。
@@ -80,7 +80,7 @@
特喵的,技术没学到什么,图片倒是收藏了很多张 。。。 特喵的,技术没学到什么,图片倒是收藏了很多张 。。。
![发图就躲起来](http://www.apachecn.org/wp-content/uploads/2017/11/apachecn_fatujiuduoqilai.jpg) ![发图就躲起来](https://www.apachecn.org/wp-content/uploads/2017/11/apachecn_fatujiuduoqilai.jpg)
## 组织架构 ## 组织架构
为何要完善组织架构??? 为何要完善组织架构???
@@ -91,7 +91,7 @@
5. 。。。等等。 5. 。。。等等。
6. 竟然还有小伙伴问,能不能兑换翔 。。。我也是无话可说。 6. 竟然还有小伙伴问,能不能兑换翔 。。。我也是无话可说。
![这B装的可以](http://www.apachecn.org/wp-content/uploads/2017/11/apachecn_zhebizhuangdekeyi.jpg) ![这B装的可以](https://www.apachecn.org/wp-content/uploads/2017/11/apachecn_zhebizhuangdekeyi.jpg)
## 组织积分制 ## 组织积分制
正在完善组织积分制,简单来说就是参与组织的一些活动,比如参与翻译,参与反馈,参与宣传活动等等啥的,都会获得相应的积分。 正在完善组织积分制,简单来说就是参与组织的一些活动,比如参与翻译,参与反馈,参与宣传活动等等啥的,都会获得相应的积分。
@@ -121,11 +121,11 @@
2. 如果你是大佬: 非常欢迎大佬们,来一起装逼。 2. 如果你是大佬: 非常欢迎大佬们,来一起装逼。
3. 如果你单纯的只是想找大佬来带你,怕是你又来错地方了 。。。- - 、 3. 如果你单纯的只是想找大佬来带你,怕是你又来错地方了 。。。- - 、
![一起走的更远](http://www.apachecn.org/wp-content/uploads/2017/08/apachecn-go-far-go-together-768x576.jpg) ![一起走的更远](https://www.apachecn.org/wp-content/uploads/2017/08/apachecn-go-far-go-together-768x576.jpg)
## 了解我们 ## 了解我们
以前写的一些文章,如果想了解我们更多一点的话,必看的哟!~ 以前写的一些文章,如果想了解我们更多一点的话,必看的哟!~
1. [伟大的航道,前往新世界](http://www.apachecn.org/newworld/11.html) 1. [伟大的航道,前往新世界](https://www.apachecn.org/newworld/11.html)
2. [关于我们](http://cwiki.apachecn.org/pages/viewpage.action?pageId=2887240) 2. [关于我们](http://cwiki.apachecn.org/pages/viewpage.action?pageId=2887240)
## 支持我们 ## 支持我们

View File

@@ -236,4 +236,4 @@ F 值 = 70% * 50% * 2 / (70% + 50%) = 58.3%
* **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)** * **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -243,4 +243,4 @@ def biKMeans(dataSet, k, distMeas=distEclud):
* **作者: [那伊抹微笑](http://cwiki.apachecn.org/display/~xuxin), [清都江水郎](http://cwiki.apachecn.org/display/~xuzhaoqing)** * **作者: [那伊抹微笑](http://cwiki.apachecn.org/display/~xuxin), [清都江水郎](http://cwiki.apachecn.org/display/~xuzhaoqing)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -393,4 +393,4 @@ def generateRules(L, supportData, minConf=0.7):
* **作者: [片刻](https://github.com/jiangzhonglian)** * **作者: [片刻](https://github.com/jiangzhonglian)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -99,4 +99,4 @@ if __name__ == "__main__":
* **作者: [mikechengwei](https://github.com/mikechengwei)** * **作者: [mikechengwei](https://github.com/mikechengwei)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -223,4 +223,4 @@ def pca(dataMat, topNfeat=9999999):
* **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)** * **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -435,4 +435,4 @@ def imgCompress(numSV=3, thresh=0.8):
* **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)** * **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [1988](http://cwiki.apachecn.org/display/~lihuisong)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -220,4 +220,4 @@ def batchPegasos(dataSet, labels, lam, T, k):
* **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [小瑶](http://cwiki.apachecn.org/display/~chenyao)** * **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [小瑶](http://cwiki.apachecn.org/display/~chenyao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -77,7 +77,7 @@
* **作者: [片刻](https://github.com/jiangzhonglian)** * **作者: [片刻](https://github.com/jiangzhonglian)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**
> 摘录的原文地址: > 摘录的原文地址:

View File

@@ -564,4 +564,4 @@ KNN 是一个简单的无显示学习过程,非泛化学习的监督学习模
* **作者: [羊三](http://cwiki.apachecn.org/display/~xuxin) [小瑶](http://cwiki.apachecn.org/display/~chenyao)** * **作者: [羊三](http://cwiki.apachecn.org/display/~xuxin) [小瑶](http://cwiki.apachecn.org/display/~chenyao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -414,4 +414,4 @@ def grabTree(filename):
* **作者: [片刻](https://github.com/jiangzhonglian) [小瑶](http://cwiki.apachecn.org/display/~chenyao)** * **作者: [片刻](https://github.com/jiangzhonglian) [小瑶](http://cwiki.apachecn.org/display/~chenyao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -790,5 +790,5 @@ strings
* **作者: [羊三](http://cwiki.apachecn.org/display/~xuxin) [小瑶](http://cwiki.apachecn.org/display/~chenyao)** * **作者: [羊三](http://cwiki.apachecn.org/display/~xuxin) [小瑶](http://cwiki.apachecn.org/display/~chenyao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -648,4 +648,4 @@ Logistic回归和最大熵模型 都属于对数线性模型 log linear model
* **作者: [羊三](http://cwiki.apachecn.org/display/~xuxin) [小瑶](http://cwiki.apachecn.org/display/~chenyao)** * **作者: [羊三](http://cwiki.apachecn.org/display/~xuxin) [小瑶](http://cwiki.apachecn.org/display/~chenyao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -11,7 +11,7 @@
并结合 ApacheCN 这段时间的撸代码和相关研究得到,有理解有误的地方还望大家指出,谢谢。 并结合 ApacheCN 这段时间的撸代码和相关研究得到,有理解有误的地方还望大家指出,谢谢。
再次感谢网上的大佬们的无私贡献。 再次感谢网上的大佬们的无私贡献。
ApacheCN: http://www.apachecn.org/ ApacheCN: https://www.apachecn.org/
ApacheCN MachineLearning github: https://github.com/apachecn/AiLearning ApacheCN MachineLearning github: https://github.com/apachecn/AiLearning
网上资料参考链接:https://www.zhihu.com/question/21094489 网上资料参考链接:https://www.zhihu.com/question/21094489

View File

@@ -565,4 +565,4 @@ def testDigits(kTup=('rbf', 10)):
* **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [geekidentity](http://cwiki.apachecn.org/display/~houfachao)** * **作者: [片刻](http://cwiki.apachecn.org/display/~jiangzhonglian) [geekidentity](http://cwiki.apachecn.org/display/~houfachao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -657,4 +657,4 @@ change detection 变化趋势检测类似于异常值检测。但是他不是寻
* **作者: [片刻](https://github.com/jiangzhonglian)** * **作者: [片刻](https://github.com/jiangzhonglian)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -845,4 +845,4 @@ def regression5():
* **作者: [小瑶](http://cwiki.apachecn.org/display/~chenyao) [片刻](https://github.com/jiangzhonglian)** * **作者: [小瑶](http://cwiki.apachecn.org/display/~chenyao) [片刻](https://github.com/jiangzhonglian)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

View File

@@ -630,4 +630,4 @@ Tkinter 是 Python 的一个 GUI 工具包。虽然并不是唯一的包,但
* **作者: [片刻](https://github.com/jiangzhonglian) [小瑶](http://cwiki.apachecn.org/display/~chenyao)** * **作者: [片刻](https://github.com/jiangzhonglian) [小瑶](http://cwiki.apachecn.org/display/~chenyao)**
* [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning> * [GitHub地址](https://github.com/apachecn/AiLearning): <https://github.com/apachecn/AiLearning>
* **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](http://www.apachecn.org/)** * **版权声明: 欢迎转载学习 => 请标注信息来源于 [ApacheCN](https://www.apachecn.org/)**

98
docs/old_README.md Normal file
View File

@@ -0,0 +1,98 @@
<p align="center">
<a href="https://www.apachecn.org">
<img width="200" src="docs/img/logo.jpg">
</a>
<br >
<a href="https://www.apachecn.org/"><img src="https://img.shields.io/badge/%3E-HOME-green.svg"></a>
<a href="https://home.apachecn.org/about/"><img src="https://img.shields.io/badge/%3E-ABOUT-green.svg"></a>
<a href="mailto:apache@163.com"><img src="https://img.shields.io/badge/%3E-Email-green.svg"></a>
</p>
<h1 align="center"><a href="https://github.com/apachecn/AiLearning">AI learning</a></h1>
> 协议:[CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/deed.zh)
>
> 一种新技术一旦开始流行你要么坐上压路机要么成为铺路石。——Stewart Brand
* [在线阅读](https://ailearning.apachecn.org)
* [在线阅读Gitee](https://apachecn.gitee.io/ailearning)
* [ApacheCN 中文翻译组 713436582](https://qm.qq.com/cgi-bin/qm/qr?k=5u_aAU-YlY3fH-m8meXTJzBEo2boQIUs&jump_from=webapi&authKey=CVZcReMt/vKdTXZBQ8ly+jWncXiSzzWOlrx5hybX5pSrKu6s0fvGX54+vHHlgYNt)
* [ApacheCN 学习资源](https://www.apachecn.org/)
## 公告
⚠⚠⚠此项目已正式封板⚠⚠⚠
ApacheCN 的 AI 相关项目告一段落,请大家关注我们的其他计划,例如:
+ [QuantLearning](https://github.com/apachecn/quant-learning)
+ [Quant 译文集](https://github.com/apachecn/apachecn-quant-zh)
+ [Quant WIKI](https://github.com/apachecn/quant-wiki)
## 贡献指南
为了不断改进翻译质量我们特此启动了【翻译、校对、笔记整理活动】开设了多个校对项目。贡献者校对一章之后可以领取千字2\~4元的奖励。进行中的校对活动请见[活动列表](https://home.apachecn.org/#/docs/activity/docs-activity)。更多详情请联系飞龙Q562826179V:wizardforcel
## DOCX开放共享科研记录行动倡议
我们积极响应[科研开源计划DOCX](https://mmcheng.net/docx/)。如今开源不仅仅是开放源码,还包括数据集、模型、教程和实验记录。我们也在探讨其它类别的开源方案和协议。
希望大家了解这个倡议,把这个倡议与自己的兴趣点结合,做点力所能及的事情。每个人的微小的贡献,汇聚在一起就是整个开源生态。
## 下载
### Docker
```
docker pull apachecn0/ailearning
docker run -tid -p <port>:80 apachecn0/ailearning
# 访问 http://localhost:{port} 查看文档
```
### PYPI
```
pip install apachecn-ailearning
apachecn-ailearning <port>
# 访问 http://localhost:{port} 查看文档
```
### NPM
```
npm install -g ailearning
ailearning <port>
# 访问 http://localhost:{port} 查看文档
```
## 组织介绍
> 我们是布客iBooker一个大型开源社区、自媒体和网赚社区旗下 QQ 群共一万余人订阅用户至少一万人。Github Star 数量超过 60k 个,在所有 Github 组织中[排名前 100][top100]。旗下所有网站日 uip 超过 4k[Alexa 排名的峰值为 20k][top20k]。我们的核心成员拥有[ CSDN 博客专家][csdn-pro]和[简书程序员优秀作者][js-pro]认证。我们建立了公益性文档和教程翻译项目 [ApacheCN][apachecn]。
>
> 与商业组织不同,我们并不会追逐热点,或者唯利是图。作为公益组织,我们将完成项目放在首要位置,并有足够时间把项目打磨到极致。我们希望做出广大 AI 爱好者和个人开发者真正需要的东西,打造真正有价值的长尾作品。
* **We are ApacheCN Open Source Organization, not ASF! We are fans of AI, and have no relationship with ASF!**
* 合作 or 侵权,请联系 <apachecn@163.com> | 请抄送一份到 <wizard.z@foxmail.com>
[top100]: https://gitstar-ranking.com/apachecn
[top20k]: https://home.apachecn.org/img/about/alexa_201906.png
[csdn-pro]: https://blog.csdn.net/wizardforcel
[js-pro]: https://www.jianshu.com/u/b508a6aa98eb
[apachecn]: https://github.com/apachecn
## 参考
* [比赛收集平台](https://github.com/iphysresearch/DataSciComp)
* [pbharrin/machinelearninginaction](https://github.com/pbharrin/machinelearninginaction)
* [ML Mastery](https://machinelearningmastery.com/datasets-natural-language-processing)
## 致谢
最近无意收到群友推送的链接,发现得到大佬高度的认可,并在热心的推广。在此感谢:
* [量子位](https://www.zhihu.com/question/20472776/answer/691646493)
* [人工智能前沿讲习](https://mp.weixin.qq.com/s/f2dqulxOPkt7k5hqPsydyQ)
## 赞助我们
<img src="http://data.apachecn.org/img/about/donate.jpg" alt="微信&支付宝" />

View File

@@ -1,390 +0,0 @@
# 路线图
* 入门只看: 步骤 1 => 2 => 3你可以当大牛
* 中级补充 - 资料库: <https://github.com/apachecn/ai-roadmap>
> 补充
* 头条视频汇总: <https://www.ixigua.com/home/85684906755>
* 算法刷题: <https://www.ixigua.com/pseries/6822642486343631363/>
* 面试求职: <https://www.ixigua.com/pseries/6822563009391493636/>
* 机器学习实战: <https://www.ixigua.com/pseries/6822816341615968772/>
* NLP教学视频: <https://www.ixigua.com/pseries/6828241431295951373/>
* **AI常用函数说明**: <https://github.com/apachecn/AiLearning/tree/master/AI常用函数说明.md>
## 1.机器学习 - 基础
> 支持版本
| Version | Supported |
| ------- | ------------------ |
| 3.6.x | :x: |
| 2.7.x | :white_check_mark: |
注意事项:
- 机器学习实战: 仅仅只是学习,请使用 python 2.7.x 版本 3.6.x 只是修改了部分)
### 基本介绍
* 资料来源: Machine Learning in Action(机器学习实战-个人笔记)
* 统一数据地址: <https://github.com/apachecn/data>
* 百度云打包地址: <https://github.com/apachecn/data/issues/3>
* 书籍下载地址: <https://github.com/apachecn/data/tree/master/book>
* 机器学习下载地址: <https://github.com/apachecn/data/tree/master/机器学习>
* 深度学习数据地址: <https://github.com/apachecn/data/tree/master/深度学习>
* 推荐系统数据地址: <https://github.com/apachecn/data/tree/master/推荐系统>
* 视频网站: 优酷 bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)
* -- 推荐 [红色石头](https://github.com/RedstoneWill): [台湾大学林轩田机器学习笔记](https://github.com/apachecn/ntu-hsuantienlin-ml)
* -- 推荐 [机器学习笔记](https://feisky.xyz/machine-learning): https://feisky.xyz/machine-learning
### 学习文档
| 模块 | 章节 | 类型 | 负责人(GitHub) | QQ |
| --- | --- | --- | --- | --- |
| 机器学习实战 | [第 1 章: 机器学习基础](/docs/ml/1.md) | 介绍 | [@毛红动](https://github.com/ElmaDavies) | 1306014226 |
| 机器学习实战 | [第 2 章: KNN 近邻算法](/docs/ml/2.md) | 分类 | [@尤永江](https://github.com/youyj521) | 279393323 |
| 机器学习实战 | [第 3 章: 决策树](/docs/ml/3.md) | 分类 | [@景涛](https://github.com/jingwangfei) | 844300439 |
| 机器学习实战 | [第 4 章: 朴素贝叶斯](/docs/ml/4.md) | 分类 | [@wnma3mz](https://github.com/wnma3mz)<br/>[@分析](https://github.com/kailian) | 1003324213<br/>244970749 |
| 机器学习实战 | [第 5 章: Logistic回归](/docs/ml/5.md) | 分类 | [@微光同尘](https://github.com/DataMonk2017) | 529925688 |
| 机器学习实战 | [第 6 章: SVM 支持向量机](/docs/ml/6.md) | 分类 | [@王德红](https://github.com/VPrincekin) | 934969547 |
| 网上组合内容 | [第 7 章: 集成方法(随机森林和 AdaBoost](/docs/ml/7.md) | 分类 | [@片刻](https://github.com/jiangzhonglian) | 529815144 |
| 机器学习实战 | [第 8 章: 回归](/docs/ml/8.md) | 回归 | [@微光同尘](https://github.com/DataMonk2017) | 529925688 |
| 机器学习实战 | [第 9 章: 树回归](/docs/ml/9.md) | 回归 | [@微光同尘](https://github.com/DataMonk2017) | 529925688 |
| 机器学习实战 | [第 10 章: K-Means 聚类](/docs/ml/10.md) | 聚类 | [@徐昭清](https://github.com/xuzhaoqing) | 827106588 |
| 机器学习实战 | [第 11 章: 利用 Apriori 算法进行关联分析](/docs/ml/11.md) | 频繁项集 | [@刘海飞](https://github.com/WindZQ) | 1049498972 |
| 机器学习实战 | [第 12 章: FP-growth 高效发现频繁项集](/docs/ml/12.md) | 频繁项集 | [@程威](https://github.com/mikechengwei) | 842725815 |
| 机器学习实战 | [第 13 章: 利用 PCA 来简化数据](/docs/ml/13.md) | 工具 | [@廖立娟](https://github.com/lljuan330) | 835670618 |
| 机器学习实战 | [第 14 章: 利用 SVD 来简化数据](/docs/ml/14.md) | 工具 | [@张俊皓](https://github.com/marsjhao) | 714974242 |
| 机器学习实战 | [第 15 章: 大数据与 MapReduce](/docs/ml/15.md) | 工具 | [@wnma3mz](https://github.com/wnma3mz) | 1003324213 |
| Ml项目实战 | [第 16 章: 推荐系统(已迁移)](/docs/ml/16.md) | 项目 | [推荐系统(迁移后地址)](https://github.com/apachecn/RecommenderSystems) | |
| 第一期的总结 | [2017-04-08: 第一期的总结](/docs/report/2017-04-08.md) | 总结 | 总结 | 529815144 |
### 网站视频
> [知乎问答-爆炸啦-机器学习该怎么入门?](https://www.zhihu.com/question/20691338/answer/248678328)
当然我知道第一句就会被吐槽因为科班出身的人不屑的吐了一口唾沫说傻X还评论 Andrew Ng 的视频。。
我还知道还有一部分人,看 Andrew Ng 的视频就是看不懂,那神秘的数学推导,那迷之微笑的英文版的教学,我何尝又不是这样走过来的?? 我的心可能比你们都痛因为我在网上收藏过上10部《机器学习》相关视频外加国内本土风格的教程: 7月+小象 等等,我都很难去听懂,直到有一天,被一个百度的高级算法分析师推荐说: 《机器学习实战》还不错,通俗易懂,你去试试??
我试了试还好我的Python基础和调试能力还不错基本上代码都调试过一遍很多高大上的 "理论+推导",在我眼中变成了几个 "加减乘除+循环",我想这不就是像我这样的程序员想要的入门教程么?
很多程序员说机器学习 TM 太难学了,是的,真 TM 难学,我想最难的是: 没有一本像《机器学习实战》那样的作者愿意以程序员 Coding 角度去给大家讲解!!
最近几天GitHub 涨了 300颗 star加群的200人 现在还在不断的增加++,我想大家可能都是感同身受吧!
很多想入门新手就是被忽悠着收藏收藏再收藏,但是最后还是什么都没有学到,也就是"资源收藏家",也许新手要的就是 [MachineLearning(机器学习) 学习路线图](https:/docs.apachecn.org/map)。没错,我可以给你们的一份,因为我们还通过视频记录下来我们的学习过程。水平当然也有限,不过对于新手入门,绝对没问题,如果你还不会,那算我输!!
> 视频怎么看?
![](img/ApacheCN-ML-bilibili-compare.jpg)
1. 理论科班出身-建议去学习 Andrew Ng 的视频Ng 的视频绝对是权威,这个毋庸置疑)
2. 编码能力强 - 建议看我们的[《机器学习实战-教学版》](https://space.bilibili.com/97678687/#!/channel/detail?cid=22486)
3. 编码能力弱 - 建议看我们的[《机器学习实战-讨论版》](https://space.bilibili.com/97678687/#!/channel/detail?cid=13045),不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。
> 【免费】数学教学视频 - 可汗学院 入门篇
* [@于振梓]() 推荐: 可汗学院-网易公开课
| 概率 | 统计 | 线性代数 |
| - | - | - |
| [可汗学院(概率)](http://open.163.com/special/Khan/probability.html) | [可汗学院(统计学)](http://open.163.com/special/Khan/khstatistics.html)| [可汗学院(线性代数)](http://open.163.com/special/Khan/linearalgebra.html)
> 机器学习视频 - ApacheCN 教学版
|||
| - | - |
| AcFun | B站 |
| <a title="AcFun机器学习视频" href="http://www.acfun.cn/u/12540256.aspx#page=1" target="_blank"><img width="290" src="/docs/img/ApacheCN-ML-AcFun.jpg"></a> | <a title="bilibili机器学习视频" href="https://space.bilibili.com/97678687/#!/channel/index" target="_blank"><img width="290" src="/docs/img/ApacheCN-ML-bilibili.jpg"></a> |
| 优酷 | 网易云课堂 |
| <a title="YouKu机器学习视频" href="http://i.youku.com/apachecn" target="_blank"><img width="290" src="/docs/img/ApacheCM-ML-youku.jpg"></a> | <a title="WangYiYunKeTang机器学习视频" href="http://study.163.com/course/courseMain.htm?courseId=1004582003" target="_blank"><img width="290" src="/docs/img/ApacheCM-ML-WangYiYunKeTang.png"></a> |
> 【免费】机器/深度学习视频 - 吴恩达
| 机器学习 | 深度学习 |
| - | - |
| [吴恩达机器学习](http://study.163.com/course/courseMain.htm?courseId=1004570029) | [神经网络和深度学习](http://mooc.study.163.com/course/2001281002?tid=2001392029) |
## 2.深度学习
> 支持版本
| Version | Supported |
| ------- | ------------------ |
| 3.6.x | :white_check_mark: |
| 2.7.x | :x: |
### 入门基础
1. [反向传递](/docs/dl/反向传递.md): https://www.cnblogs.com/charlotte77/p/5629865.html
2. [CNN原理](/docs/dl/CNN原理.md): http://www.cnblogs.com/charlotte77/p/7759802.html
3. [RNN原理](/docs/dl/RNN原理.md): https://blog.csdn.net/qq_39422642/article/details/78676567
4. [LSTM原理](/docs/dl/LSTM原理.md): https://blog.csdn.net/weixin_42111770/article/details/80900575
### Pytorch - 教程
-- 待更新
### TensorFlow 2.0 - 教程
-- 待更新
> 目录结构:
* [安装指南](/docs/TensorFlow2.x/安装指南.md)
* [Keras 快速入门](/docs/TensorFlow2.x/Keras快速入门.md)
* [实战项目 1 电影情感分类](/docs/TensorFlow2.x/实战项目_1_电影情感分类.md)
* [实战项目 2 汽车燃油效率](/docs/TensorFlow2.x/实战项目_2_汽车燃油效率.md)
* [实战项目 3 优化 过拟合和欠拟合](/docs/TensorFlow2.x/实战项目_3_优化_过拟合和欠拟合.md)
* [实战项目 4 古诗词自动生成](/docs/TensorFlow2.x/实战项目_4_古诗词自动生成.md)
切分(分词)
词性标注
命名实体识别
句法分析
WordNet可以被看作是一个同义词词典
词干提取stemming与词形还原lemmatization
* https://www.biaodianfu.com/nltk.html/amp
TensorFlow 2.0学习网址
* https://github.com/lyhue1991/eat_tensorflow2_in_30_days
## 3.自然语言处理
> 支持版本
| Version | Supported |
| ------- | ------------------ |
| 3.6.x | :white_check_mark: |
| 2.7.x | :x: |
学习过程中-内心复杂的变化!!!
```python
自从学习NLP以后才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
1) 国内: 就好像为了名气举办工作装逼的会议就是没有干货全部都是象征性的PPT介绍不是针对在做的各位
2国外: 就好像是为了推动nlp进步一样分享者各种干货资料和具体的实现。(特别是: python自然语言处理
2. 论文的实现:
1) 各种高大上的论文实现却还是没看到一个像样的GitHub项目可能我的搜索能力差了点一直没找到
2国外就不举例了我看不懂
3. 开源的框架
1国外的开源框架: tensorflow/pytorch 文档+教程+视频官方提供
2) 国内的开源框架: 额额还真举例不出来但是牛逼吹得不比国外差MXNet虽然有众多国人参与开发但不能算是国内开源框架基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制公开发布(文档+第一季教程+视频)。)
每一次深入都要去翻墙每一次深入都要Google每一次看着国内的说: 哈工大讯飞中科大百度阿里多牛逼但是资料还是得国外去找
有时候真的挺恨的真的有点瞧不起自己国内的技术环境
当然谢谢国内很多博客大佬特别是一些入门的Demo和基本概念。【深入的水平有限没看懂
```
![](nlp/img/F94581F64C21A1094A473397DFA42F9C.jpg)
* **【入门须知】必须了解**: <https://github.com/apachecn/AiLearning/tree/master/nlp>
* **【入门教程】强烈推荐: PyTorch 自然语言处理**: <https://github.com/apachecn/NLP-with-PyTorch>
* Python 自然语言处理 第二版: <https://usyiyi.github.io/nlp-py-2e-zh>
* 推荐一个[liuhuanyong大佬](https://github.com/liuhuanyong)整理的nlp全面知识体系: <https://liuhuanyong.github.io>
* 开源 - 词向量库集合:
* <https://www.cnblogs.com/Darwin2000/p/5786984.html>
* <https://ai.tencent.com/ailab/nlp/embedding.html>
* <https://blog.csdn.net/xiezj007/article/details/85073890>
* <https://github.com/Embedding/Chinese-Word-Vectors>
* <https://github.com/brightmart/nlp_chinese_corpus>
* <https://github.com/codemayq/chinese_chatbot_corpus>
* <https://github.com/candlewill/Dialog_Corpus>
### 1.使用场景 (百度公开课)
> 第一部分 入门介绍
* 1.) [自然语言处理入门介绍](/docs/nlp/1.自然语言处理入门介绍.md)
> 第二部分 机器翻译
* 2.) [机器翻译](/nlp/2.机器翻译.md)
> 第三部分 篇章分析
* 3.1.) [篇章分析-内容概述](/docs/nlp/3.1.篇章分析-内容概述.md)
* 3.2.) [篇章分析-内容标签](/docs/nlp/3.2.篇章分析-内容标签.md)
* 3.3.) [篇章分析-情感分析](/docs/nlp/3.3.篇章分析-情感分析.md)
* 3.4.) [篇章分析-自动摘要](/docs/nlp/3.4.篇章分析-自动摘要.md)
> 第四部分 UNIT-语言理解与交互技术
* 4.) [UNIT-语言理解与交互技术](/docs/nlp/4.UNIT-语言理解与交互技术.md)
### 应用领域
#### 中文分词:
* 构建DAG图
* 动态规划查找综合正反向正向加权反向输出求得DAG最大概率路径
* 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题
#### 1.文本分类Text Classification
文本分类是指标记句子或文档,例如电子邮件垃圾邮件分类和情感分析。
下面是一些很好的初学者文本分类数据集。
1. [路透社Newswire主题分类](http://kdd.ics.uci.edu/databases/reuters21578/reuters21578.html)(路透社-21578。1987年路透社出现的一系列新闻文件按类别编制索引。[另见RCV1RCV2和TRC2](http://trec.nist.gov/data/reuters/reuters.html)。
2. [IMDB电影评论情感分类斯坦福](http://ai.stanford.edu/~amaas/data/sentiment)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
3. [新闻组电影评论情感分类(康奈尔)](http://www.cs.cornell.edu/people/pabo/movie-review-data/)。来自网站imdb.com的一系列电影评论及其积极或消极的情绪。
有关更多信息,请参阅帖子:
[单标签文本分类的数据集](http://ana.cachopo.org/datasets-for-single-label-text-categorization)。
> 情感分析
比赛地址: https://www.kaggle.com/c/word2vec-nlp-tutorial
* 方案一(0.86): WordCount + 朴素 Bayes
* 方案二(0.94): LDA + 分类模型knn/决策树/逻辑回归/svm/xgboost/随机森林)
* a) 决策树效果不是很好,这种连续特征不太适合的
* b) 通过参数调整 200 个topic信息量保存效果较优计算主题
* 方案三(0.72): word2vec + CNN
* 说实话: 没有一个好的机器,是调不出来一个好的结果 (: 逃
**通过AUC 来评估模型的效果**
#### 2.语言模型Language Modeling
语言建模涉及开发一种统计模型,用于预测句子中的下一个单词或一个单词中的下一个单词。它是语音识别和机器翻译等任务中的前置任务。
它是语音识别和机器翻译等任务中的前置任务。
下面是一些很好的初学者语言建模数据集。
1. [古腾堡项目](https://www.gutenberg.org/),一系列免费书籍,可以用纯文本检索各种语言。
2. 还有更多正式的语料库得到了很好的研究; 例如:
[布朗大学现代美国英语标准语料库](https://en.wikipedia.org/wiki/Brown_Corpus)。大量英语单词样本。
[谷歌10亿字语料库](https://github.com/ciprian-chelba/1-billion-word-language-modeling-benchmark)。
> 新词发现
* 中文分词新词发现
* python3利用互信息和左右信息熵的中文分词新词发现
* <https://github.com/zhanzecheng/Chinese_segment_augment>
> 句子相似度识别
* 项目地址: https://www.kaggle.com/c/quora-question-pairs
* 解决方案: word2vec + Bi-GRU
> 文本纠错
* bi-gram + levenshtein
#### 3.图像字幕Image Captioning
mage字幕是为给定图像生成文本描述的任务。
下面是一些很好的初学者图像字幕数据集。
1. [上下文中的公共对象COCO](http://mscoco.org/dataset/#overview)。包含超过12万张带描述的图像的集合
2. [Flickr 8K](http://nlp.cs.illinois.edu/HockenmaierGroup/8k-pictures.html)。从flickr.com获取的8千个描述图像的集合。
3. [Flickr 30K](http://shannon.cs.illinois.edu/DenotationGraph/)。从flickr.com获取的3万个描述图像的集合。
欲了解更多,请看帖子:
[探索图像字幕数据集2016年](http://sidgan.me/technical/2016/01/09/Exploring-Datasets)
#### 4.机器翻译Machine Translation
机器翻译是将文本从一种语言翻译成另一种语言的任务。
下面是一些很好的初学者机器翻译数据集。
1. [加拿大第36届议会的协调国会议员](https://www.isi.edu/natural-language/download/hansard/)。成对的英语和法语句子。
2. [欧洲议会诉讼平行语料库1996-2011](http://www.statmt.org/europarl/)。句子对一套欧洲语言。
有大量标准数据集用于年度机器翻译挑战; 看到:
[统计机器翻译](http://www.statmt.org/)
> 机器翻译
* Encoder + Decoder(Attention)
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/intermediate/seq2seq_translation_tutorial.html
#### 5.问答系统Question Answering
问答是一项任务,其中提供了一个句子或文本样本,从中提出问题并且必须回答问题。
下面是一些很好的初学者问题回答数据集。
1. [斯坦福问题回答数据集SQuAD](https://rajpurkar.github.io/SQuAD-explorer/)。回答有关维基百科文章的问题。
2. [Deepmind问题回答语料库](https://github.com/deepmind/rc-data)。从每日邮报回答有关新闻文章的问题。
3. [亚马逊问答数据](http://jmcauley.ucsd.edu/data/amazon/qa/)。回答有关亚马逊产品的问题。
有关更多信息,请参阅帖子:
[数据集: 我如何获得问答网站的语料库如Quora或Yahoo Answers或Stack Overflow来分析答案质量](https://www.quora.com/Datasets-How-can-I-get-corpus-of-a-question-answering-website-like-Quora-or-Yahoo-Answers-or-Stack-Overflow-for-analyzing-answer-quality)
#### 6.语音识别Speech Recognition
语音识别是将口语的音频转换为人类可读文本的任务。
下面是一些很好的初学者语音识别数据集。
1. [TIMIT声学 - 语音连续语音语料库](https://catalog.ldc.upenn.edu/LDC93S1)。不是免费的,但因其广泛使用而上市。口语美国英语和相关的转录。
2. [VoxForge](http://voxforge.org/)。用于构建用于语音识别的开源数据库的项目。
3. [LibriSpeech ASR语料库](http://www.openslr.org/12/)。从LibriVox收集的大量英语有声读物。
#### 7.自动文摘Document Summarization
文档摘要是创建较大文档的简短有意义描述的任务。
下面是一些很好的初学者文档摘要数据集。
1. [法律案例报告数据集](https://archive.ics.uci.edu/ml/datasets/Legal+Case+Reports)。收集了4000份法律案件及其摘要。
2. [TIPSTER文本摘要评估会议语料库](http://www-nlpir.nist.gov/related_projects/tipster_summac/cmp_lg.html)。收集了近200份文件及其摘要。
3. [英语新闻文本的AQUAINT语料库](https://catalog.ldc.upenn.edu/LDC2002T31)。不是免费的,而是广泛使用的。新闻文章的语料库。
欲了解更多信息:
[文档理解会议DUC任务](http://www-nlpir.nist.gov/projects/duc/data.html)。
[在哪里可以找到用于文本摘要的良好数据集?](https://www.quora.com/Where-can-I-find-good-data-sets-for-text-summarization)
> 命名实体识别
* Bi-LSTM CRF
* 参考案例: http://pytorch.apachecn.org/cn/tutorials/beginner/nlp/advanced_tutorial.html
* CRF推荐文档: https://www.jianshu.com/p/55755fc649b1
> 文本摘要
* **抽取式**
* word2vec + textrank
* word2vec推荐文档: https://www.zhihu.com/question/44832436/answer/266068967
* textrank推荐文档: https://blog.csdn.net/BaiHuaXiu123/article/details/77847232
## Graph图计算【慢慢更新】
* 数据集: [https://github.com/apachecn/data/tree/master/graph](https://github.com/apachecn/data/tree/master/graph)
* 学习资料: spark graphX实战.pdf 【文件太大不方便提供,自己百度】
## 知识图谱
* 知识图谱,我只认 [SimmerChan](https://www.zhihu.com/people/simmerchan): [【知识图谱-给AI装个大脑】](https://zhuanlan.zhihu.com/knowledgegraph)
* 说实话,我是看这博主老哥写的博客长大的,写的真的是深入浅出。我很喜欢,所以就分享给大家,希望你们也喜欢。
### 进一步阅读
如果您希望更深入,本节提供了其他数据集列表。
1. [维基百科研究中使用的文本数据集](https://en.wikipedia.org/wiki/List_of_datasets_for_machine_learning_research#Text_data)
2. [数据集: 计算语言学家和自然语言处理研究人员使用的主要文本语料库是什么?](https://www.quora.com/Datasets-What-are-the-major-text-corpora-used-by-computational-linguists-and-natural-language-processing-researchers-and-what-are-the-characteristics-biases-of-each-corpus)
3. [斯坦福统计自然语言处理语料库](https://nlp.stanford.edu/links/statnlp.html#Corpora)
4. [按字母顺序排列的NLP数据集列表](https://github.com/niderhoff/nlp-datasets)
5. [该机构NLTK](http://www.nltk.org/nltk_data/)
6. [在DL4J上打开深度学习数据](https://deeplearning4j.org/opendata)
7. [NLP数据集](https://github.com/caesar0301/awesome-public-datasets#natural-language)
8. 国内开放数据集: https://bosonnlp.com/dev/resource

View File

@@ -10,7 +10,7 @@
* [在线阅读](https://hands1ml.apachecn.org/) * [在线阅读](https://hands1ml.apachecn.org/)
* [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3) * [ApacheCN 面试求职交流群 724187166](https://jq.qq.com/?_wv=1027&k=54ujcL3)
* [ApacheCN 学习资源](http://www.apachecn.org/) * [ApacheCN 学习资源](https://www.apachecn.org/)
* [利用 Python 进行数据分析 第二版](https://github.com/apachecn/pyda-2e-zh) * [利用 Python 进行数据分析 第二版](https://github.com/apachecn/pyda-2e-zh)
## 编译 ## 编译