From 4609c0b212d7b733f88b309aff4a43ae7224fe6b Mon Sep 17 00:00:00 2001 From: jiangzhonglian Date: Wed, 13 May 2020 22:25:22 +0800 Subject: [PATCH] =?UTF-8?q?=E6=9B=B4=E6=96=B0=E9=93=BE=E6=8E=A5=E4=BF=A1?= =?UTF-8?q?=E6=81=AF?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- docs/nlp/1.自然语言处理入门介绍.md | 80 ++++++++++++++++-------------- docs/nlp/3.1.篇章分析-内容概述.md | 2 +- docs/nlp/3.2.篇章分析-内容标签.md | 12 ++--- docs/nlp/3.3.篇章分析-情感分析.md | 12 ++--- docs/nlp/3.4.篇章分析-自动摘要.md | 22 ++++---- docs/nlp/README.md | 2 +- 6 files changed, 67 insertions(+), 63 deletions(-) diff --git a/docs/nlp/1.自然语言处理入门介绍.md b/docs/nlp/1.自然语言处理入门介绍.md index 92be0937..be73125d 100644 --- a/docs/nlp/1.自然语言处理入门介绍.md +++ b/docs/nlp/1.自然语言处理入门介绍.md @@ -1,16 +1,16 @@ # 自然语言处理介绍 * 语言是知识和思维的载体 -* 自然语言处理 (Natural Language Processing, NLP) 是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。 +* 自然语言处理 (Natural Language Processing, NLP) 是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。 ## NLP相关的技术 | 中文 | 英文 | 描述 | | --- | --- | --- | | 分词 | Word Segmentation | 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 | -| 命名实体识别 | Named Entity Recognition | 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) | -| 词性标注 | Part-Speech Tagging | 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) | -| 依存句法分析 | Dependency Parsing | 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) | +| 命名实体识别 | Named Entity Recognition | 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) | +| 词性标注 | Part-Speech Tagging | 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) | +| 依存句法分析 | Dependency Parsing | 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) | | 词向量与语义相似度 | Word Embedding & Semantic Similarity | 依托全网海量数据和深度神经网络技术,实现了对词汇的向量化表示,并据此实现了词汇的语义相似度计算 | | 文本语义相似度 | Text Semantic Similarity | 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力 | | 篇章分析 | Document Analysis | 分析篇章级文本的内在结构,进而分析文本情感倾向,提取评论性观点,并生成反映文本关键信息的标签与摘要 | @@ -18,66 +18,70 @@ ## 场景案例 -### 案例1(解决交叉歧义) +### 案例1(解决交叉歧义) -**分词(Word Segmentation)** :将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 +**分词(Word Segmentation)** : 将连续的自然语言文本,切分成具有语义合理性和完整性的词汇序列 -例句:致毕业和尚未毕业的同学。 +例句: 致毕业和尚未毕业的同学。 + +分词: -分词: 1. `致` `毕业` `和` `尚未` `毕业` `的` `同学` 2. `致` `毕业` `和尚` `未` `毕业` `的` `同学` -推荐: +推荐: + 1. 校友 和 老师 给 尚未 毕业 同学 的 一 封 信 2. 本科 未 毕业 可以 当 和尚 吗 -### 案例2(从粒度整合未登录体词) +### 案例2(从粒度整合未登录体词) -**命名实体识别(Named Entity Recognition)**:识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) +**命名实体识别(Named Entity Recognition)**: 识别自然语言文本中具有特定意义的实体(人、地、机构、时间、作品等) -例句:天使爱美丽在线观看 +例句: 天使爱美丽在线观看 -分词:`天使` `爱` `美丽` `在线` `观看` +分词: `天使` `爱` `美丽` `在线` `观看` -实体: 天使爱美丽 -> 电影 +实体: 天使爱美丽 -> 电影 -推荐: -1. 网页:天使爱美丽 土豆 高清视频 -2. 网页:在线直播爱美丽的天使 +推荐: -### 案例3(结构歧义问题) +1. 网页: 天使爱美丽 土豆 高清视频 +2. 网页: 在线直播爱美丽的天使 -**词性标注(Part-Speech Tagging)**: 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) -**依存句法分析(Dependency Parsing)**:自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) +### 案例3(结构歧义问题) -评论:房间里还可以欣赏日出 +* **词性标注(Part-Speech Tagging)**: 为自然语言文本中的每个词汇赋予一个词性(名词、动词、形容词等) +* **依存句法分析(Dependency Parsing)**: 自动分析句子中的句法成分(主语、谓语、宾语、定语、状语和补语等成分) + +评论: 房间里还可以欣赏日出 + +歧义: -歧义: 1. 房间还可以 2. 可以欣赏日出 -词性:(???) -房间里:主语 -还可以:谓语 -欣赏日出: 动宾短语 +* 词性: (???) +* 房间里: 主语 +* 还可以: 谓语 +* 欣赏日出: 动宾短语 -### 案例4(词汇语言相似度) +### 案例4(词汇语言相似度) -**词向量与语义相似度(Word Embedding & Semantic Similarity)**:对词汇进行向量化表示,并据此实现词汇的语义相似度计算。 +**词向量与语义相似度(Word Embedding & Semantic Similarity)**: 对词汇进行向量化表示,并据此实现词汇的语义相似度计算。 -例如:西瓜 与 (呆瓜/草莓),哪个更接近? +例如: 西瓜 与 (呆瓜/草莓),哪个更接近? -向量化表示: 西瓜(0.1222, 0.22333, .. ) -相似度计算: 呆瓜(0.115) 草莓(0.325) -向量化表示:(-0.333, 0.1223 .. ) (0.333, 0.3333, .. ) +* 向量化表示: 西瓜(0.1222, 0.22333, .. ) +* 相似度计算: 呆瓜(0.115) 草莓(0.325) +* 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. ) -### 案例5(文本语义相似度) +### 案例5(文本语义相似度) -**文本语义相似度(Text Semantic Similarity)**:依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力 +**文本语义相似度(Text Semantic Similarity)**: 依托全网海量数据和深度神经网络技术,实现文本间的语义相似度计算的能力 -例如:车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近? +例如: 车头如何防止车牌 与 (前牌照怎么装/如何办理北京牌照),哪个更接近? -向量化表示: 车头如何防止车牌(0.1222, 0.22333, .. ) -相似度计算: 前牌照怎么装(0.762) 如何办理北京牌照(0.486) -向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. ) +* 向量化表示: 车头如何防止车牌(0.1222, 0.22333, .. ) +* 相似度计算: 前牌照怎么装(0.762) 如何办理北京牌照(0.486) +* 向量化表示: (-0.333, 0.1223 .. ) (0.333, 0.3333, .. ) diff --git a/docs/nlp/3.1.篇章分析-内容概述.md b/docs/nlp/3.1.篇章分析-内容概述.md index 049ad49d..d7547d52 100644 --- a/docs/nlp/3.1.篇章分析-内容概述.md +++ b/docs/nlp/3.1.篇章分析-内容概述.md @@ -27,4 +27,4 @@ ## 篇章分析任务 -![篇章分析任务/img/NLP/3.1.篇章分析-内容标签/篇章分析任务.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.1.篇章分析-内容标签/篇章分析任务.jpg) diff --git a/docs/nlp/3.2.篇章分析-内容标签.md b/docs/nlp/3.2.篇章分析-内容标签.md index c1a4d963..1539101f 100644 --- a/docs/nlp/3.2.篇章分析-内容标签.md +++ b/docs/nlp/3.2.篇章分析-内容标签.md @@ -30,7 +30,7 @@ ## 百度内容标签 -![百度内容标签/img/NLP/3.2.篇章分析-内容标签/百度内容标签.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.2.篇章分析-内容标签/百度内容标签.jpg) ## 标签体系:面向推荐的标签图谱 @@ -39,14 +39,14 @@ * 包括3种节点:主题标签-绿色,话题标签-紫色,实体标签-蓝色。 * 有了关联关系,我们可以进行一定程度的探索和泛化。(例如:无人驾驶和人工智能关联很强,如果有人看了无人驾驶,我们就给他推荐人工智能) -![面向推荐的标签图谱/img/NLP/3.2.篇章分析-内容标签/面向推荐的标签图谱.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.2.篇章分析-内容标签/面向推荐的标签图谱.jpg) ## 标签体系:基于大数据分析的图谱构建 * 用户信息来源:贴吧、微博 * 标签的相关性分析:通过关联规则,发现2个标签总同时出现,我们觉得这是高相关的。 -![基于大数据分析的图谱构建/img/NLP/3.2.篇章分析-内容标签/基于大数据分析的图谱构建.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.2.篇章分析-内容标签/基于大数据分析的图谱构建.jpg) ## 标签计算 @@ -59,7 +59,7 @@ * 第二层 表示层:通过一些 embedding的算法、CNN、LSTM的方法 * 第三层 排序层:计算文章与主题之间的相似度,具体会计算每个主题与文章的相似度,并将相似度作为最终的一个主题分类的结果。这种计算的好处能够天然的支持多标记,也就是一篇文章可以同时计算出多个主题标签。 -![主题分类/img/NLP/3.2.篇章分析-内容标签/主题分类.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.2.篇章分析-内容标签/主题分类.jpg) > 通用标签 @@ -72,11 +72,11 @@ * 比如:这个标签在文章中出现的频率 或 出现的位置;如果出现在标题,那么它可能就会比较重要。 * 通过融合这2种策略,形成我们通用标签的结果。 -![通用标签/img/NLP/3.2.篇章分析-内容标签/通用标签.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.2.篇章分析-内容标签/通用标签.jpg) ## 内容标签在Feed流中的应用 1. 标签可以用来话题聚合:比如表示人工智能的标签全部都会集合到同一个话题下面。这样用户可以对人工智能这个话题进行非常充分的浏览。 2. 话题频道划分:比如我们在手机百度上面就可以看到,Feed流上面有多个栏目,用户可以点击 `体育` `时尚`等频道 -![内容标签在Feed流中的应用/img/NLP/3.2.篇章分析-内容标签/内容标签在Feed流中的应用.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.2.篇章分析-内容标签/内容标签在Feed流中的应用.jpg) diff --git a/docs/nlp/3.3.篇章分析-情感分析.md b/docs/nlp/3.3.篇章分析-情感分析.md index 80f607ed..712f1f99 100644 --- a/docs/nlp/3.3.篇章分析-情感分析.md +++ b/docs/nlp/3.3.篇章分析-情感分析.md @@ -12,14 +12,14 @@ * 对(文本的)观点、情感、情绪和评论进行分析计算 -![情感分类和观点挖掘/img/NLP/3.3.篇章分析-情感分类/情感分类和观点挖掘.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.3.篇章分析-情感分类/情感分类和观点挖掘.jpg) > 情感分类 * 给定一个文本判断其情感的极性,包括积极、中性、消极。 * LSTM 对文本进行语义表示,进而基于语义表示进行情感分类。 -![情感分类/img/NLP/3.3.篇章分析-情感分类/情感分类.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.3.篇章分析-情感分类/情感分类.jpg) > 观点挖掘 @@ -28,18 +28,18 @@ * 观点抽取一种简单的做法是直接通过标签匹配的方式得到,比如:服务不错这个情感搭配,恰好在文本中出现,我们就可以把它抽取出来。 * 但是这种简单的抽取方法,其实上只能从字面上抽取情感搭配,而无法解决字面不一致的,但是意思一样的情感搭配抽取,因此我们还引入了语义相似度的方法。这种方法主要是通过神经网络进行计算的。它能解决这种字面不一致,语义一样的抽取问题。 -![观点挖掘/img/NLP/3.3.篇章分析-情感分类/观点挖掘.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.3.篇章分析-情感分类/观点挖掘.jpg) > 观点摘要 综合了情感分类和观点挖掘的一些技术,而获得的一个整体的应用技术 -![观点摘要/img/NLP/3.3.篇章分析-情感分类/观点摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.3.篇章分析-情感分类/观点摘要.jpg) ## 百度应用:评论观点 -![百度应用评论观点/img/NLP/3.3.篇章分析-情感分类/百度应用评论观点.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.3.篇章分析-情感分类/百度应用评论观点.jpg) ## 百度应用:推荐理由 -![百度应用推荐理由/img/NLP/3.3.篇章分析-情感分类/百度应用推荐理由.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.3.篇章分析-情感分类/百度应用推荐理由.jpg) diff --git a/docs/nlp/3.4.篇章分析-自动摘要.md b/docs/nlp/3.4.篇章分析-自动摘要.md index 4e905852..058fac28 100644 --- a/docs/nlp/3.4.篇章分析-自动摘要.md +++ b/docs/nlp/3.4.篇章分析-自动摘要.md @@ -2,7 +2,7 @@ ## 信息爆炸与移动化 -![信息爆炸与移动化/img/NLP/3.4.篇章分析-自动摘要/信息爆炸与移动化.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/信息爆炸与移动化.jpg) ## 自动摘要应用 @@ -21,42 +21,42 @@ * 以简洁、直观的摘要来概括用户所关注的主要内容 * 方便用户快速了解与浏览海量内容 -![摘要系统/img/NLP/3.4.篇章分析-自动摘要/摘要系统.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp//3.4.篇章分析-自动摘要/摘要系统.jpg) * 自动摘要分类 -![自动摘要分类/img/NLP/3.4.篇章分析-自动摘要/自动摘要分类.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/自动摘要分类.jpg) * 典型摘要计算流程 -![典型摘要计算流程/img/NLP/3.4.篇章分析-自动摘要/典型摘要计算流程.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/典型摘要计算流程.jpg) > 基于篇章信息的通用新闻摘要 -![基于篇章信息的通用新闻摘要/img/NLP/3.4.篇章分析-自动摘要/基于篇章信息的通用新闻摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/基于篇章信息的通用新闻摘要.jpg) > 篇章主题摘要 -![篇章主题摘要/img/NLP/3.4.篇章分析-自动摘要/篇章主题摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/篇章主题摘要.jpg) > 问答摘要 -![问答摘要/img/NLP/3.4.篇章分析-自动摘要/问答摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/问答摘要.jpg) ## 百度应用 > 文本和语言摘要 -![百度应用文本和语言摘要/img/NLP/3.4.篇章分析-自动摘要/百度应用文本和语言摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/百度应用文本和语言摘要.jpg) > 问答摘要 -![百度应用问答摘要/img/NLP/3.4.篇章分析-自动摘要/百度应用问答摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/百度应用问答摘要.jpg) > 搜索播报摘要和图像摘要 -![百度应用搜索播报摘要和图像摘要/img/NLP/3.4.篇章分析-自动摘要/百度应用搜索播报摘要和图像摘要.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/百度应用搜索播报摘要和图像摘要.jpg) ## 总结 -![总结/img/NLP/3.4.篇章分析-自动摘要/总结.jpg) +![](http://data.apachecn.org/img/AiLearning/nlp/3.4.篇章分析-自动摘要/总结.jpg) diff --git a/docs/nlp/README.md b/docs/nlp/README.md index 6ab62ffd..7f08b933 100644 --- a/docs/nlp/README.md +++ b/docs/nlp/README.md @@ -8,7 +8,7 @@ ## nlp 学习书籍和工具: * 百度搜索:Python自然语言处理 -* 读书笔记:https://wnma3mz.github.io/hexo_blog/2018/05/13/《Python自然语言处理》阅读笔记(一) +* 读书笔记: * Python自然语言处理工具汇总: ## nlp 全局介绍视频:(简单做了解就行)